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项 亮 毕业 于 中 国 科学 技术 大 学 和 
中 国 科学 院 自动 化 所 ， 研 究 方向 
为 机 器 学 习 和 推荐 系统 ， 现 任职 
于 北京 Hulu 软 件 技术 开发 有 限 公 
司 ， 从 事 视频 推荐 的 研究 和 开 
发 。2009 年 参加 Netflix Prize 推 荐 
系统 比赛 获得 团体 第 二 名 ， 且 于 
当年 参与 创建 了 Resys China 推 荐 
系统 社区 。 


随 着 信息 技术 和 互联 网 的 发 
展 ， 人 们 逐渐 从 信息 匮乏 的 时 代 走 
入 了 信息 过 载 ( information overload ) 
的 时 代 。 在 这 个 时 代 ， 无 论 是 信息 
消费 者 还 是 信息 生产 者 都 遇 到 了 很 
大 的 挑战 : 对 于 信息 消费 者 ， 从 大 
量 信息 中 找到 自己 感 兴趣 的 信息 是 
一 件 非常 困难 的 事情 ; 对 于 信息 生 
产 者 ， 让 自己 生产 的 信息 脱 颖 而 
出 ， 受 到 广大 用 户 的 关注 ， 也 是 一 
件 非 常 困难 的 事情 。 推 荐 系统 就 是 
解决 这 一 矛盾 的 重要 工具 。 推 荐 系 
统 的 任务 就 是 联系 用 户 和 信息 ， 一 
方面 帮助 用 户 发 现 对 自己 有 价值 的 
信息 ， 另 一 方面 让 信息 能 够 展现 在 
对 它 感 兴趣 的 用 户 面前 ， 从 而 实现 
信息 消费 者 和 信息 生产 者 的 双赢 。 
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内 容 提要 


本 书 通过 大 量 代码 和 图 表 全 面 系统 地 阐述 了 和 推荐 系统 有 关 的 理论 基础 ， 介 绍 了 评价 推荐 系统 优 劣 的 
各 种 标准 《〈 比 如 覆盖 率 、 满 意 度 ) 和 方法 (比如 AB 测试 )， 总 结 了 当今 互联 网 领域 中 各 种 和 推荐 有 关 的 产 
品 和 服务 。 另 外 ， 本 书 为 有 兴趣 开发 推荐 系统 的 读者 给 出 了 设计 和 实现 推荐 系统 的 方法 与 技巧 ， 并 解答 了 
在 真实 场景 中 应 用 推荐 技术 时 最 常 遇 到 的 一 些 问题 。 

本 书 适合 对 推荐 技术 感 兴趣 的 读者 学 习 参 考 。 
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推荐 在 今天 互联 网 的 产品 和 应 用 中 被 广泛 采用 , 包括 今天 大 家 经 常 使 用 的 相关 搜索 、 话 题 推 
荐 、 电 子 商务 的 各 种 产品 推荐 、 社 交 网 络 上 的 交友 推荐 等 。 人 但是， 至今 还 没有 一 本 书 从 理论 上 对 
它 进行 系统 地 分 析 和 论述 。《 推 荐 系统 实践 》 这 本 书 恰恰 弥补 了 这 个 空白 。 

该 书 总 结 了 当今 互联 网 主要 领域 、 主 要 公司 、 各 种 和 推荐 有 关 的 产品 和 服务 ， 包 括 : 
口 亚马逊 的 个 性 化 产品 推荐 ; 

D Netflix 的 视频 和 DVD 推荐 ; 

口 Pandora 的 音乐 推荐 ; 

口 Facebook 的 好 友 推 荐 ; 

口 Google Reader 的 个 性 化 阅读 ; 

口 各 种 个 性 化 广告 。 

书 的 名 称 虽 然 是 《推荐 系统 实践 》, 但 作者 也 阐述 了 和 推荐 系统 有 关 的 理论 基础 和 评价 推荐 
系统 优 劣 的 各 种 标准 与 方法 ， 比 如 和 覆盖 率 、 满 意 度 、AB 测 试 等 。 由 于 这 些 评估 很 大 程度 上 取决 于 
对 用 户 行为 的 分 析 ， 因 此 本 书 也 介绍 了 用 户 行为 分 析 方 法 ， 并 且 给 出 了 计算 机 实现 的 算法 。 

本 书 对 有 兴趣 自己 开发 推荐 系统 的 读者 给 出 了 设计 和 实现 推荐 系统 的 方法 与 技巧 , 非常 具有 
指导 意义 。 

本 书 文笔 流畅 ， 可 读 性 较 高 ， 是 一 部 值得 推荐 给 IT 从 业 人 员 的 优秀 参考 书 。 

























































































一 一 吴军 


腾讯 副 总 裁 ,《 数 学 之 美 》 和 《浪潮 之 项》 作者 
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项 亮 的 书写 完了 。 开 始 写作 这 本 书 时 ,我 的 身份 是 作者 , 但 交 稿 时 ,我 变 成 了 审 稿 人 。 这 让 
我 想起 了 多 年 前 流传 的 一 个 “四 大 傻 ” 的 段子 : 炒 房 炒 成 房东 ,炒股 炒 成 股东 ,，…… 写 书写 成 审 
稿 人 ， 我 看 也 可 以 并 肩 成 为 一 景 。 

去 年 五 六 月 份 , 图 灵 公司 的 杨 海 玲 老师 通过 朋友 问 我 有 没有 兴趣 参与 写 一 本 推荐 系统 方面 的 
书 , 我 欣然 答应 。 近 几 年 推荐 技术 在 互联 网 领域 的 应 用 越 来 越 广泛 ,但 对 相关 技术 做 系统 介绍 的 
书 却 非 常 少 , 相关 的 外 文书 倒是 见 过 两 三 本 。 但 一 方面 ,对 国内 读者 来 说 语言 障碍 或 多 或 少 会 是 
个 问题 , 另 一 方面 , 这 些 书 大 多 以 研究 人 员 为 目标 读者 ,并 不 完全 适合 推荐 技术 的 普及 。 能 参与 
填补 这 项 空白 , 何 乐 而 不 为 ? 书 开 写 后 的 最 初 一 两 个 月 , 我 的 确 贡 献 过 不 到 万 把 字 的 内 容 , 但 随 
着 各 种 不 足 为 外 人 道 的 事务 纷 至 囊 来 , 能 花 在 写作 上 的 时 间 越 来 越 少 , 每 次 答应 项 亮 要 去 填补 内 
容 , 最 后 都 不 了 了 之 ,一 直到 项 亮 自己 把 这 本 书写 完 。 我 最 初 贡献 的 内 容 ， 也 因为 写作 目标 和 本 
书 整体 风格 的 逐步 调整 没 法 添加 进来 了 。 这 种 情况 下 , 我 实在 不 好 意思 呆 在 作者 列表 里 了 ,所 以 
有 机 会 写 了 这 篇 序 。 

提 到 项 亮 , 就 不 能 不 提 Netflix 推 荐 算法 竞赛 , 虽然 项 亮 自己 不 见得 喜欢 把 自己 定格 在 过 去 时 。 
这 项 赛事 , 非常 罕见 地 召集 了 数 以 万 计 的 技术 人 员 共同 解决 同一 个 技术 问题 , 并 且 把 解决 方案 公 
布 出 来 。 这 为 这 个 领域 的 工程 人 员 和 研究 人 员 不 同 创意 的 碰撞 提供 了 条 件 , 因而 产生 了 很 多 有 价 
值 的 新 方法 , 使 很 多 以 前 只 被 少数 专家 掌握 的 技术 细节 能 够 被 更 广泛 地 传播 开 来 , 使 专家 们 解读 
数据 的 方法 、 解 构 算法 模型 的 思路 能 够 被 巨细 无 遗 地 发 表 出 来 。 项 亮 在 Netflix 竞 赛 中 有 非常 出 色 
的 表现 ， 书 中 总 结 了 很 多 他 在 Netflix 竞 赛 以 及 相关 研究 和 工程 工作 中 学 到 或 悟 到 的 分 析 数据 与 设 
计算 法 的 思路 。 虽 然 我 一 直 在 追踪 推荐 技术 的 发 展 , 在 书 中 仍然 能 看 到 很 多 本 不 了 解 的 方法 , 相 
言 其 他 读者 读 过 本 书 也 不 会 失望 。 

在 大 家 一 起 讨论 的 过 程 中 ,项 亮 经 常 提 到 另外 一 本 非常 流行 的 书 ， 即 《集体 智慧 编程 》。 项 
亮 非常 希望 他 写 的 书 能 像 《 集 体 智慧 编程 》 那 样 简明 实用 ， 帮 助 那些 对 推荐 技术 或 数据 挖掘 原理 
完全 不 了 解 的 读者 快速 实现 自己 的 推荐 系统 。 出 于 这 个 目的 , 本 书 尽 可 能 地 用 代码 和 图 表 与 读者 
交流 , 尽 可 能 地 用 直观 的 讨论 代替 数学 公式 , 这 对 于 大 多 数 工程 技术 人 员 来 说 应 该 是 更 为 喜 闻 乐 
见 的 形式 。 另 一 方面 , 可 能 是 因为 数据 资源 的 限制 , 大 多 数学 术 论文 都 把 推荐 问题 看 做 评分 预测 
问题 ， 而 实际 应 用 中 最 常见 的 是 TopN 推 荐 ， 虽 然 TopN 推 荐 问题 可 以 归纳 成 评分 问题 ， 但 并 不 是 
每 种 评分 预测 算法 都 能 直接 用 来 解决 TopN 推 荐 问题 。 本 书 大 部 分 篇 幅 都 在 讨论 TopN 推 荐 问题 ， 
这 样 的 安排 对 实际 应 用 的 实现 应 该 帮助 会 更 大 一 点 。 最 后 , 本 书 比 较 系统 地 讨论 了 把 推荐 技术 应 
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2 序 二 





用 到 真实 应 用 场景 时 最 常 遇 到 的 问题 , 希望 可 以 帮助 那些 有 机 噩 学 习 经 验 的 技术 人 员 快 速 了 解 推 
存 技术 。 

最 近 一 两 年 , 国内 大 型 互联 网 公司 对 个 性 化 服务 越 来 越 重视 , 以 个 性 化 技术 做 支撑 的 创业 公 
司 也 在 不 断 涌现 ,个 性 化 的 浪潮 方兴未艾 ,相信 本 书 能 帮助 更 多 的 技术 人 员 投 身 于 这 一 技术 浪潮 。 
能 看 到 本 书 的 诞生 ， 我 深 感 茉 幸 ， 虽 然 我 的 贡献 ， 其 实 只 有 这 篇 序 。 





一 一 陈 义 
豆 闪 资深 算法 工程 师 
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翻 翻 我 的 邮箱 ， 可 以 看 到 2010 年 6 月 就 有 项 亮 组 织 大 家 讨论 《推荐 系统 实践 》 一 书目 录 结 构 
的 记录 。 实际 上 最 初 的 讨论 比 这 还 早 , 而 且 从 北京 初夏 难得 一 见 的 暴雨 砸 在 咖啡 馆 的 玻璃 窗 上 开 
始 , 一 直 持续 到 了 金秋 时 节 。 讨 论 的 焦点 在 于 为 什么 要 写 一 本 关于 推荐 系统 的 书 、 从 什么 角度 写 
以 及 写 给 谁 看 。 

第 一 个 问题 相对 好 回答 。 推 荐 系统 是 目前 互联 网 世界 最 常见 的 智能 产品 形式 。 从 电子 商务 、 
音乐 视频 网 站 , 到 作为 互联 网 经 济 支柱 的 在 线 广告 和 新 颖 的 在 线 应 用 推荐 , 到 处 都 有 推荐 系统 的 
身影 。 这 些 网 站 和 业务 的 开创 者 大 都 是 年 轻 热 情 的 工程 师 ， 或 者 有 志 于 投身 互联 网 行业 的 同学 。 
虽然 我 们 并 非 都 有 相关 学 术 研 究 的 背景 , 也 并 非 都 有 在 企业 中 积累 的 经 验 , 但 是 大 家 都 不 乏 学 习 
的 热情 ， 而 且 充满 着 对 研发 成 功 推荐 系统 的 期 待 。 因 此 参与 讨论 的 朋友 都 赞同 从 实践 考 的 角度 来 
写 这 本 书 ， 写 给 希望 一 起 学 习 和 实践 的 朋友 们 。 讨 论 并 不 是 空想 。 在 此 期 间 ， 项 亮 建立 了 一 个 
wiki 系统 ， 样 章 一 发 布 在 上 面 ， 一 些 朋 友 就 开始 修改 。 经 过 将 近 一 年 的 努力 ， 我 们 看 到 了 本 书 的 
初稿 。 

初 识 项 亮 是 在 2009 年 ， 当 时 项 亮 还 是 中 国 科学 院 的 一 名 博士 研究 生 , 一 方面 积极 参与 Netflix 
和 其 他 推荐 系统 比赛 并 取得 了 漂亮 的 成 绩 ， 一 方面 积极 参与 组 织 了 recsys 学 术 会 议 。 作 为 一 个 有 
很 多 业界 公司 支持 的 学 术 交 流 活动 ，recsys 在 建立 之 初 就 吸引 了 很 多 同学 和 工程 师 。 项 亮 毕业 后 
进入 Hulu 公 司 , 开始 了 工业 级 别 推荐 系统 的 开发 工作 ， 并 一 如 既往 地 注意 学 习 、 总 结 和 分 享 。 我 
在 recsys 做 了 一 次 关于 并 行 机 器 学 习 技术 的 报告 后 ， 项 亮 介绍 我 认识 了 本 书 的 几 位 主要 贡献 者 。 
随后 不 久 , 大 家 就 开始 酝酿 本 书 的 写作 。 项 亮 的 经 历 在 很 大 程度 上 决定 了 本 书 的 写作 目标 : 希望 
帮助 在 校 学 生 了 解 推荐 系统 的 业界 起 源 和 应 用 ,把握 研究 方向 ; 帮助 工程 师 总 结 各 类 方法 ,迅速 
开发 出 一 个 推荐 系统 并 持续 优化 之 。 

推荐 系统 是 一 个 很 大 的 话题 。 各 种 在 线 甚 至 部 分 离线 应 用 中 , 都 有 各 式 各 样 目标 不 一 的 推荐 
系统 ， 小 到 论文 推荐 , 大 到 用 户 兴 趣 定 向 的 在 线 广告 系统 。 在 学术 圈 ， 相 关 的 研究 成 果 亦 可 谓 多 
侨 。 实 际 上 ,， 几 周 前 大 家 还 在 讨论 最 新 的 机 器 学 习 方 法 可 能 给 推荐 系统 带 来 的 变化 。 可 是 ,本 书 
不 论 是 写成 一 本 学 术 专 著 , 还 是 一 部 产品 大 全 , 都 难免 浩瀚 空 泛 的 蓝 姓 , 对 大 家 难 有 帮助 。 因 此 ， 
作者 花费 了 大 量 精力 在 组 织 目录 结构 上 , 希望 覆盖 推荐 系统 的 若干 重要 问题 , 同时 让 每 个 问题 下 
有 既 有 实际 产品 介绍 ， 也 有 技术 思路 介绍 。 为 了 保证 可 读 性 ,本 书 重 在 常见 方法 和 技术 思路 ， 而 非 
全 面 介 绍 各 种 思想 和 最 新 研究 成 果 。 为 了 保证 可 操作 性 ， 重 要 的 算法 都 配 有 Python 语言 的 示例 
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3 天 治 


程序 。 





我 想 ， 这 本 实践 者 写 给 实践 者 的 书 ， 留 下 的 是 作者 对 “思考 ”和 “学 习 ” 的 辩证 足迹 。 我 硕 
望 本 书 的 出 版 能 带动 更 多 的 朋友 一 起 把 足迹 走 成 大 路 , 而 大 路 的 前 方 , 是 更 多 成 功 的 互联 网 应 用 
和 完美 的 技术 方法 。 


广告 中 心 总 监 


kt 
册 


腾讯 公司 情境 
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了 -> 
且 二 


说 起 本 书 ， 还 要 追溯 到 2010 年 3 月 份 的 ResysChina 推 荐 系统 大 会 。 在 那 次 会 议 上 ， 我 遇 到 了 

刘 江 老师 。 刘 老师 看 过 我 之 前 写 的 一 些 推 荐 系统 方面 的 博客 , 希望 我 能 总 结 总 结 , 写本 简单 的 书 。 
当时 国内 还 没有 推荐 系统 方面 的 书 , 而 国外 已 经 有 这 方面 的 专业 书 了 , 因此 图 灵 公 司 很 想 出 版 一 
本 介绍 推荐 系统 的 书 。 所 以 , 去 年 7 月 博士 毕业 时 ,我 感 党 有 时 间 可 以 总 结 一 下 这 方面 的 工作 了 ， 
于 是 准备 开始 写 这 本 书 。 
写 这 本 书 的 目的 有 下 面 几 个 。 首先， 从 个 人 角度 讲 , 虽然 写 博士 论文 时 已 经 总 结 了 读 博 期 间 
在 推荐 系统 方面 的 工作 , 但 并 没有 全 部 涉及 整个 推荐 系统 的 各 个 方面 , 因此 我 很 希望 通过 写作 这 
本 书 全 面 地 阅读 一 下 相关 的 文献 , 并 在 此 基础 上 总 结 一 下 推荐 系统 各 个 方面 的 发 展现 状 , 供 大 家 
参考 。 其 次 ， 最 近 几 年 从 事 推 荐 系统 研究 的 人 越 来 越 多 ,这 些 人 中 有 些 原 来 是 工程 师 ， 对 机 器 学 
习 和 数据 挖掘 不 太 了 解 ， 有些 是 在 校 学 生 , 虽然 对 数据 挖掘 和 机 器 学 习 有 所 了 解 ， 却 对 业界 如 何 
实现 推荐 系统 不 太 清 楚 。 因 此 , 我 希望 能 够 通过 本 书 让 工程 师 了 解 推荐 系统 的 相关 算法 ， 让 学 生 
了 解 如 何 将 自己 了 解 的 算法 实现 到 一 个 真实 的 工业 系统 中 去 。 

一 般 认 为 ,推荐 系统 这 个 研究 领域 源 于 协同 过 滤 算 法 的 提出 。 这 么 说 来 ,推荐 系统 诞生 快 20 
年 了 。 这 期 间 , 很 多 学 者 和 公司 对 推荐 系统 的 发 展 起 到 了 重要 的 推动 作用 , 各 种 各 样 的 推荐 算法 
也 层出不穷 。 本 书 希 望 将 这 20 年 间 诞 生 的 典型 方法 进行 总 结 。 但 由 于 方法 太 多 , 这 些 方法 的 归 类 
有 很 多 不 同 的 方式 。 比 如 ， 可 以 按照 数据 分 成 协同 过 滤 、 内 容 过 滤 、 社 会 化 过 滤 ， 也 可 以 按照 算 
法 分 成 基于 邻 域 的 算法 、 基 于 图 的 算法 、 基 于 和 矩 阵 分 解 或 者 概率 模型 的 算法 ,为 了 方便 读者 入 门 ， 
本 书 基本 采用 数据 分 类 的 方法 , 每 一 章 都 介绍 了 一 种 可 以 用 于 推荐 系统 设计 的 、 新 类 型 的 用 户 数 
据 ， 然 后 介绍 如 何 通 过 各 种 方法 利用 该 数据 ， 最 后 在 公开 数据 集 上 评测 这 些 方法 。 当 然 , 不 是 所 
有 数据 都 有 公开 的 数据 集 ， 并且 不 是 所 有 算法 都 可 以 进行 离线 评测 。 因 此 , 在 遇 到 没有 数据 集 或 
无 法 进行 离线 评测 的 问题 时 ， 本 书 引 用 了 一 些 著名 学 者 的 实验 结果 来 说 明 各 种 方法 的 效果 。 

为 了 使 本 书 同时 适合 工程 师 和 在 校 学生 阅 读 , 本 书 在 写作 中 同时 使 用 了 两 种 介绍 方法 。 一 种 
是 利用 公式 ,这 样 方便 有 一 些 理论 基础 的 同学 很 快 明白 算法 的 含义 。 另 一 种 是 利用 代码 ,这 样 可 
以 方便 工程 师 迅 速 了 解 算 法 的 含义 。 不 过 因为 本 人 是 学 生出 身 ， 工 程 经 验 还 不 是 特别 足 ， 所 以 有 
些 代码 写 得 不 是 那么 完美 ， 还 请 工程 师 们 海 涵 。 

本 书 一 开始 写 的 时 候 有 3 位 作者 ， 除 了 我 之 外 还 有 豆瓣 的 陈 义 和 腾讯 的 王 益 。 他 们 两 位 都 是 
这 方面 的 前 厘 , 在 写作 过 程 中 提出 了 很 多 宝贵 的 意见 。 但 因为 二 位 工作 实在 太 繁忙 ， 所 以 本 书 主 
要 由 我 操 刀 。 但 书 中 的 很 多 论述 融合 了 大 家 的 思想 和 经 验 ， 是 我 们 很 多 次 讨论 的 结果 。 因 此 在 这 
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好 的 推荐 系统 





在 研究 如 何 设 计 推 荐 系统 前 , 了解 什么 是 好 的 推荐 系统 至 关 重 要 。 只 有 了 解 了 优秀 推荐 系统 
的 特征 ， 我 们 才能 在 设计 推荐 系统 时 根据 实际 情况 进行 取舍 。 本 章 分 3 个 步骤 来 回答 这 个 问题 : 
首先 , 本章 将 介绍 什么 是 推荐 系统 、 推 荐 系统 的 主要 任务 、 推 荐 系统 和 分 类 目录 以 及 搜索 引擎 的 
区 别 等 ; 然后 ,本章 将 按照 不 同 领域 分 门 别 类 地 介绍 目前 业界 常见 的 个 性 化 推荐 应 用 ; 最 后 , 本 
章 将 介绍 推荐 系统 的 评测 ,通过 介绍 评测 指标 给 出 “好 ”的 定义 ， 从 而 最 终 解答 “什么 是 好 的 推 
荐 系统 ”这 个 问题 。 


1.1 什么 是 推荐 系统 


如 果 想 买 一 包 花 生 米 ， 你 有 多 少 种 办 法 ? 假设 附近 有 一 个 24 小 时 便利 店 ， 你 可 以 走 进 店 里 ， 
看 看 所 有 的 货架 ， 转 一 圈 找 到 花生 米 ， 然 后 比较 几 个 牌子 的 口碑 或 者 价格 找到 自己 喜欢 的 牌子 ， 
掏 钱 付款 。 如 果 家 附近 有 一 家 沃尔玛 ， 你 可 以 走 进 店 里 ， 按 照 分 类 指示 牌 走 到 食品 所 在 的 楼 层 ， 
接着 按照 指示 牌 找到 卖 干果 的 货架 , 然后 在 货架 上 仔细 寻找 你 需要 的 花生 米 ， 找 到 后 付款 。 如 果 
你 很 懒 ， 不 想 出 门 ， 可 以 打开 当当 或 者 淘宝 ， 在 一 个 叫做 搜索 框 的 东西 里 输入 花生 米 3 个 字 ， 然 
后 你 会 看 到 一 堆 花 生 米 ,找到 喜欢 的 牌子 , 付费， 然后 等 待 送 货 上 门 。 上 面 这 几 个 例子 描述 了 用 
户 在 有 明确 需求 的 情况 下 ， 面 对 信息 过 载 所 采用 的 措施 。 在 24 小 时 便利 店 ， 因 为 店面 很 小 , 用户 
可 以 赁 自己 的 经 验 浏 览 所 有 货架 找到 自己 需要 的 东西 .在 沃尔玛 , 商品 已 经 被 放 在 无 数 的 货架 上 ， 
此 时 用 户 就 需要 借用 分 类 信息 找到 自己 需要 的 商品 。 而 在 淘宝 或 者 当当 , 由 于 商品 数目 巨大 , 用 
户 只 能 通过 搜索 引擎 找到 自己 需要 的 商品 。 

但 是 ,如 果 用 户 没 有 明确 的 需求 呢 ? 比如 你 今天 很 无 聊 ,， 想 下 载 一 部 电影 看 看 。 但 当 你 打开 
某 个 下 载 网 站 ， 面 对 100 年 来 发 行 的 数不胜数 的 电影 ， 你 会 手足 无 措 , 不 知道 该 看 哪 一 部 。 此 时 ， 
你 遇 到 了 信息 过 载 的 问题 , 需要 一 个 人 或 者 工具 来 帮助 你 做 筛选 ,给 出 一 些 建 议 供 你 选择 。 如 果 
这 时 候 有 个 喜欢 看 电影 的 朋友 在 身边 , 你 可 能 会 请 他 推荐 几 部 电影 。 不 过 ,总 不 能 时 时 刻 刻 都 去 
麻烦 “专家 ”给 你 推荐 ， 你 需要 的 是 一 个 自动 化 的 工具 ， 它 可 以 分 析 你 的 历史 兴趣 ， 从 庞大 的 电 
影库 中 找到 几 部 符合 你 兴趣 的 电影 供 你 选择 。 这 个 工具 就 是 个 性 化 推荐 系统 。 

随 着 信息 技术 和 互联 网 的 发 展 ， 人 们 逐渐 从 信息 匮乏 的 时 代 走 和 人 了 信息 过 载 ( information 
overload ) 的 时 代 。 在 这 个 时 代 ,， 无 论 是 信息 消费 者 还 是 信息 生产 者 都 遇 到 了 很 大 的 挑战 : 作为 














































































































GD 参见 http:/en.wikipedia.org/wiki/Information overload。 


图 灵 社区 会 员 臭 豆腐 (StinkBC@gmailcom) 专 享 尊重 版 权 





2 第 1 章 好 的 推荐 系统 











言 息 消费 者 ,如何 从 大 量 信息 中 找到 自己 感 兴 趣 的 信息 是 一 件 非 常 困难 的 事情 ;作为 信息 生产 者 ， 
如 何 让 自己 生产 的 信息 脱颖而出 , 受到 广大 用 户 的 关注 ,也 是 一 件 非常 困难 的 事情 。 推 荐 系统 就 
是 解决 这 一 矛盾 的 重要 工具 。 推荐 系统 的 任务 就 是 联系 用 户 和 信息 , 一 方面 帮助 用 户 发 现 对 自己 
有 价值 的 信息 , 另 一 方面 让 信息 能 够 展现 在 对 它 感 兴趣 的 用 户 面前 , 从 而 实现 信息 消费 者 和 信息 
生产 者 的 双 说 ( 如 图 1-1 所 示 )。( 本 书后 面 将 信息 统称 为 “物品 "， 即 可 以 供用 户 消费 的 东西 。) 









































图 1-1 推荐 系统 的 基本 任务 是 联系 用 户 和 物品 ， 解 决 信息 过 载 的 问题 


众所周知 , 为 了 解决 信息 过 载 的 问题 ,已 经 有 无 数 科学 家 和 工程 师 提 出 了 很 多 天 才 的 解决 方 
案 , 其 中 代表 性 的 解决 方案 是 分 类 目录 和 搜索 引擎 。 而 这 两 种 解决 方案 分 别 催生 了 互联 网 领域 的 
两 家 著名 公司 一 一 雅虎 和 谷歌 。 著 名 的 互联 网 公司 雅虎 凭借 分 类 目录 起 家 ， 而 现在 比较 著名 的 分 
类 目录 网 站 还 有 国外 的 DMOZ、 国 内 的 Hao123 等 。 这 些 目 录 将 著名 的 网 站 分 门 别 类 ， 从 而 方便 用 
户 根 据 类 别 查 找 网 站 。 但 是 随 着 互联 网 规模 的 不 断 扩大 , 分 类 目录 网 站 也 只 能 覆盖 少量 的 热门 网 
站 ， 越 来 越 不 能 满足 用 户 的 需求 。 因 此 , 搜索 引擎 诞生 了 。 以 谷歌 为 代表 的 搜索 引擎 可 以 让 用 户 
通过 搜索 关键 词 找到 自己 需要 的 信息 。 但 是 , 搜索 引擎 需要 用 户主 动 提 供 准确 的 关键 词 来 寻找 信 
息 ， 因 此 不 能 解决 用 户 的 很 多 其 他 需求 ， 比 如 当 用 户 无 法 找到 准确 描述 自己 需求 的 关键 词 时 , 搜 
索引 擎 就 无 能 为 力 了 。 和 搜索 引擎 一 样 ， 推 荐 系统 也 是 一 种 帮助 用 户 快速 发 现 有 用 信息 的 工具 。 
和 搜索 引擎 不 同 的 是 , 推荐 系统 不 需要 用 户 提供 明确 的 需求 ， 而 是 通过 分 析 用 户 的 历史 行为 给 用 
户 的 兴趣 建 模 ， 从 而 主动 给 用 户 推荐 能 够 满足 他 们 兴趣 和 需求 的 信息 。 因 此 ， 从 某 种 意义 上 说 ， 
推荐 系统 和 搜索 引擎 对 于 用 户 来 说 是 两 个 互补 的 工具 。 搜索 引擎 满足 了 用 户 有 明确 目的 时 的 主动 
查找 需求 ， 而 推荐 系统 能 够 在 用 户 没有 明确 目的 的 时 候 帮 助 他 们 发 现 感 兴趣 的 新 内 容 。 

从 物品 的 角度 出 发 ， 推 荐 系统 可 以 更 好 地 发 掘 物品 的 长 尾 (longtail )。 美 国 《 连 线 》 林 志 主 
编 Chris Anderson 在 2004 年 发 表 了 “The Long Tail”( 长 尾 ) 一 文 并 于 2006 年 出 版 了 《长 尾 理论 》 
一 书 。 该 书 指出 ， 传 统 的 80/20 原 则 〈80% 的 销售 额 来 自 于 20% 的 热门 品牌 ) 在 互联 网 的 加 入 下 会 
受到 挑战 。 互 联网 条 件 下 ,由 于 货架 成 本 极端 低廉 ,电子 商务 网 站 往往 能 出 售 比 传统 零售 店 更 多 
的 商品 。 虽 然 这 些 商 品 绝 大 多 数 都 不 热门 , 但 与 传统 零售 业 相 比 ， 这 些 不 热门 的 商品 数量 极其 庞 
大 , 因此 这 些 长 尾 商 品 的 总 销售 额 将 是 一 个 不 可 小 裔 的 数字 , 也 许 会 超过 热门 商品 ( 即 主流 商品 ) 
带 来 的 销售 额 。 主 流 商品 往往 代表 了 绝 大 多 数 用 户 的 需求 ,而 长 尾 商品 往往 代表 了 一 小 部 分 用 户 
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的 个 性 化 需求 。 因 此 ， 如 果 要 通过 发 掘 长 尾 提高 销售 额 ， 就 必须 充分 研究 用 户 的 兴趣 ， 而 这 正 是 
个 性 化 推荐 系统 主要 解决 的 问题 。 推 荐 系统 通过 发 掘 用 户 的 行为 ,找到 用 户 的 个 性 化 需求 ,从 而 
将 长 尾 商 品 准确 地 推荐 给 需要 它 的 用 户 ， 帮 助 用 户 发 现 那些 他 们 感 兴趣 但 很 难 发 现 的 商品 。 
要 了 解 推荐 系统 是 如 何 工作 的 , 可 以 先 回顾 一 下 现实 社会 中 用 户 面 对 很 多 选择 时 做 决定 的 过 
程 。 仍 然 以 看 电影 为 例 ， 一 般 来 说 ,我 们 可 能 用 如 下 方式 决定 最 终 看 什么 电影 。 
口 向 朋友 咨询 。 我 们 也 许 会 打开 聊天 工具 ， 找 几 个 经 常 看 电影 的 好 朋友 ， 问 问 他 们 有 没有 
什么 电影 可 以 推荐 。 甚 至 ,我 们 可 以 打开 微 博 ， 发 表 一 句 “我 要 看 电影 ”， 然 后 等 待 热心 
人 推荐 电影 。 这 种 方式 在 推荐 系统 中 称 为 社会 化 推荐 (social recommendation )， 即 让 好 
友 给 自己 推荐 物品 。 
口 我 们 一 般 都 有 喜欢 的 演员 和 导演， 有 些 人 可 能 会 打开 搜索 引擎 ， 输 入 自己 喜欢 的 演员 名 ， 
然后 看 看 返回 结果 中 还 有 什么 电影 是 自己 没有 看 过 的 。 比 如 我 非常 喜欢 周星驰 的 电影 , 于 
是 就 去 豆瓣 搜索 周星驰 ， 发现 他 早年 的 一 部 电影 我 还 没 看 过 ， 于 是 就 会 看 一 看 。 这 种 方式 
是 寻找 和 自己 之 前 看 过 的 电影 在 内 容 上 相似 的 电影 。 推 荐 系统 可 以 将 上 述 过 程 自 动 化 , 通 
过 分 析 用 户 曾经 看 过 的 电影 找到 用 户 喜欢 的 演员 和 导演 , 然后 给 用 户 推荐 这 些 演 员 或 者 导 
演 的 其 他 电影 。 这 种 推荐 方式 在 推荐 系统 中 称 为 基于 内 容 的 推荐 ( content-based filtering )。 
口 我 们 还 可 能 查看 排行 榜 ， 比 如 著名 的 IMDB 电影 排行 榜 ， 看 看 别人 都 在 看 什么 电影 ， 别 人 
都 喜欢 什么 电影 ， 然 后 找 一 部 广 受 好 评 的 电影 观看 。 这 种 方式 可 以 进一步 扩展 : 如 果 能 
找到 和 自己 历史 兴趣 相似 的 一 群 用 户 ， 看 看 他 们 最 近 在 看 什么 电影 ， 那 么 结果 可 能 比 宽 
泛 的 热门 排行 榜 更 能 符合 自己 的 兴趣 。 这 种 方式 称 为 基于 协同 过 滤 ( collaborative filtering ) 
的 推荐 。 
从 上 面 3 种 方法 可 以 看 出 ， 推 荐 算法 的 本 质 是 通过 一 定 的 方式 将 用 户 和 物品 联系 起 来 ， 而 不 
同 的 推荐 系统 利用 了 不 同 的 方式 。 图 1-2 展 示 了 联系 用 户 和 物品 的 常用 方式 ， 比 如 利用 好 友 、 用 
户 的 历史 兴趣 记录 以 及 用 户 的 注册 信息 等 。 
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图 1-2 ”推荐 系统 常用 的 3 种 联系 用 户 和 物品 的 方式 
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通过 这 一 节 的 讨论 , 我 们 可 以 发 现 推荐 系统 就 是 自动 联系 用 户 和 物品 的 一 种 工具 , 它 能 够 在 
言 息 过 载 的 环境 中 帮助 用 户 发 现 令 他 们 感 兴趣 的 信息 ， 也 能 将 信息 推送 给 对 它们 感 兴趣 的 用 户 。 
下 一 节 将 通过 推荐 系统 的 实际 例子 让 大 家 加 深 对 推荐 系统 的 了 解 。 


1.2 个 性 化 推荐 系统 的 应 用 


和 搜索 引擎 不 同 , 个 性 化 推荐 系统 需要 依赖 用 户 的 行为 数据 , 因此 一 般 都 是 作为 一 个 应 用 存 
在 于 不 同 网 站 之 中 。 在 互联 网 的 各 类 网 站 中 都 可 以 看 到 推荐 系统 的 应 用 ,而 个 性 化 推荐 系统 在 这 
些 网 站 中 的 主要 作用 是 通过 分 析 大 量 用 户 行为 日 志 , 给 不 同 用 户 提供 不 同 的 个 性 化 页 面 展示 , 来 
提高 网 站 的 点 击 率 和 转化 率 。 广 泛 利用 推荐 系统 的 领域 包括 电子 商务 、 电 影 和 视频 、 音 乐 、 社 交 
网 络 、 阅 读 、 基 于 位 置 的 服务 、 个 性 化 邮件 和 广告 等 。 

尽管 不 同 的 网 站 使 用 不 同 的 推荐 系统 技术 , 但 总 地 来 说 ,几乎 所 有 的 推荐 系统 应 用 都 是 由 前 
台 的 展示 页 面 、 后 台 的 日 志 系 统 以 及 推荐 算法 系统 3 部 分 构成 的 。 因 此 ， 本 闻 在 介绍 不 同 的 个 性 
化 推荐 系统 应 用 时 ， 都 尽量 围绕 这 3 个 不 同 的 部 分 进行 。 


1.2.1 ”电子 商务 


电子 商务 网 站 是 个 性 化 推荐 系统 的 一 大 应 用 领域 。 著名 的 电子 商务 网 站 亚 马 撑 是 个 性 化 推荐 
系统 的 积极 应 用 者 和 推广 者 ， 被 RWW ( 读 写 网 ) 称 为 “推荐 系统 之 王 ”。 亚马逊 的 推荐 系统 深 
入 到 了 其 各 类 产品 中 ， 甚 中 最 主要 的 应 用 有 个 性 化 商品 推荐 列表 和 相关 商品 的 推荐 列表 。 

图 1-3 是 亚马逊 的 个 性 化 推荐 列表 ， 这 个 界面 是 个 性 化 推荐 系统 的 标准 用 户 界面 ， 它 包含 以 
下 儿 个 组 成 部 分 。 
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截取 自 亚马逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-3 亚马逊 的 个 性 化 推荐 列表 
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口 推荐 结果 的 标题 、 缩 略图 以 及 其 他 内 容 属 性 ”告诉 用 户 给 他 们 推荐 的 是 什么 。 

口 推荐 结果 的 平均 分 “平均 分 反应 了 推荐 结果 的 总 体质 量 ， 也 代表 了 大 部 分 用 户 对 这 本 书 
的 看 法 。 

口 推荐 理由 “亚马逊 根据 用 户 的 历史 行为 给 用 户 做 推荐 ， 因 此 如 果 它 给 你 推荐 了 一 本 金庸 
的 小 说 ， 大 都 是 因为 你 曾经 在 亚马逊 上 对 武侠 方面 的 书 给 过 表示 喜欢 的 反馈 。 此 外 ， 亚 
马 逊 对 每 个 推荐 结果 都 给 出 了 一 个 按钮 Fix this recommendation (修正 这 一 推荐 )， 单 击 后 
可 以 看 到 推荐 理由 。 如 图 1-4 所 示 ， 亚马逊 的 推荐 结果 中 有 一 本 关于 机 器 学 习 的 书 
(Introduction to Machine Learning)， 单 击 该 推荐 结果 的 Fix this recommendaion 按 钮 后 ， 会 
弹出 如 图 1-4 所 示 的 页 面 ， 该 页 面 给 用 户 提供 了 5 种 对 这 个 推荐 结果 进行 反馈 的 方式 ， 包 
括 Add to Cart (加 入 到 购物 车 )、Add to Wish List (加 入 到 心愿 单 )、Rate this item ( 给 书 
打分 )、I own it (我 已 经 有 这 本 书 了 ) 和 Not interested ( 对 这 本 书 没 兴 趣 )。 同 时 ， 在 推荐 
结果 的 下 面 还 展示 了 推荐 原因 ， 此 处 是 因为 我 曾经 给 Probabilistic Graphical Models : 
Principles and TechniquesfliData Mining:Practical Machine Learning Tools and Techniques, 
Second Edition 这 两 本 书 打 过 5 分 。 亚 马 逊 允许 用 户 禁 用 推荐 理由 ， 这 主要 是 出 于 隐私 的 
考虑 。 有 些 用 户 可 能 不 喜欢 他 对 某 些 物品 的 行为 被 系统 用 来 生成 推荐 结果 ， 这 个 时 候 
就 可 以 禁用 这 些 行 为 。 
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图 1-4 单 击 Fix this recommendation 按 钮 后 打开 的 页 画 


1-3 提 到 的 个 性 化 推荐 列表 采用 了 一 种 基于 物品 的 推荐 算法 (item-based method )， 该 算法 
给 用 户 推荐 那些 和 他 们 之 前 喜欢 的 物品 相似 的 物品 。 除 此 之 外 , 亚马逊 还 有 另外 一 种 个 性 化 推荐 
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列表 ， 就 是 按照 用 户 在 Facebook 的 好 友 关 系 ， 给 用 户 推荐 他 们 的 好 友 在 亚马逊 上 喜欢 的 物品 。 如 
图 1-5 所 示 ， 基 于 好 友 的 个 性 化 推荐 界面 同样 由 物品 标题 、 缩 略图 、 物 品 平均 分 和 推荐 理由 组 成 。 
不 过 这 里 的 推荐 理由 换 成 了 喜欢 过 相关 物品 的 用 户 好 友 的 头像 。 
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图 1-5 ”基于 Facebook 好 友 的 个 性 化 推荐 列表 


除了 个 性 化 推荐 列表 , 亚马逊 另 一 个 重要 的 推荐 应 用 就 是 相关 推荐 列表 。 当 你 在 亚马逊 购买 
一 个 商品 时 ， 它 会 在 商品 信息 下 面 展示 相关 的 商品 。 亚 马 逊 有 两 种 相关 商品 列表 , 一 种 是 包含 购 
买 了 这 个 商品 的 用 户 也 经 常 购买 的 其 他 商品 (如 图 1-6 所 示 )， 另 一 种 是 包含 浏览 过 这 个 商品 的 用 
户 经 常 购买 的 其 他 商品 (如 图 1-7 所 示 )。 这 两 种 相关 推荐 列表 的 区 别 就 是 使 用 了 不 同 用 户 行为 计 
算 物 品 的 相关 性 。 此 外 ， 相 关 推 荐 列表 最 重要 的 应 用 就 是 打包 销售 (cross selling ) "。 当 你 在 购 
买 某 个 物品 的 时 候 ， 亚 马 逊 会 告诉 你 其 他 用 户 在 购买 这 个 商品 的 同时 也 会 购买 的 其 他 几 个 商品 ， 
然后 让 你 选择 是 否 要 同时 购买 这 些 商 品 。 如 果 你 单 击 了 同时 购买 ， 它 会 把 这 几 件 商品 “打包 ”， 
有 了 时 会 提供 一 定 的 折扣 ， 然 后 卖 给 你 ( 如 图 1-8 所 示 )。 这 种 销售 手段 是 推荐 算法 最 重要 的 应 用 ， 
后 来 被 很 多 电子 商务 网 站 作为 标准 的 应 用 。 
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Casei n Faux Suede ‘aseCr aaUX 
ase (Red) for stal Cleal ase ia) 
by igi 
i 



































人 on x Suede HDE 7" Tablet Stand 
下 ard -~ 
证 ol 和 ev vel Digital Leather 
Bo 





截取 自 亚马逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-6 ”相关 推荐 列表 ， 购 买 过 这 个 商品 的 用 户 经 常 购买 的 其 他 商品 


在 看 过 亚马逊 的 推荐 产品 后 , 读者 最 关心 的 应 该 是 这 些 推 荐 的 应 用 , 究竟 给 亚马逊 谤 来 了 多 
少 商业 利益 。 关 于 这 方面 的 准确 数字 ,亚马逊 官方 并 没有 明确 公开 过 , 但 我 们 收集 到 了 一 些 相关 


交 妆 六 六 六 (5 友 
$5.21 $1. 95 
























































人 更 多 关于 Cross Selling 的 信息 参见 维基 百科 Crossing Selling 词 条 
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的 资料 。 亚 马 撑 的 前 科学 家 Greg Linden 在 他 的 博客 里 曾经 说 过 ,在 他 离开 亚 马 撑 的 时 候 , 亚 马 撑 
至 少 有 20% (之 后 的 一 篇 博文 则 变更 为 35% ) 的 销售 来 自 于 推荐 算法 。 此 外 ,亚马逊 的 前 首席 科 
学 家 Andreas Weigend 在 斯 坦 福 曾经 讲 过 一 次 推荐 系统 的 课 ， 据 听 他 课 的 同学 透露 " ， 亚 马 逊 有 
20% ~ 30% 的 销售 来 自 于 推荐 系统 。 


What Other Items Do Customers Buy After Viewing This Item? 




















a 3 Pack of Universal Touch Screen Stylus Pen (Red + Black + Silver) by Bargaincell 
友 妈 ; (636) 
$1.99 


区 Summer of Fire (Yellowstone series) by Linda Jacobs Kindle Edition 





让 妈妈 妇 冯 (5) 
$0.00 
yes New 7 inch android 2.2 VIA8650 epad tablet pc 3.0MP Camera, SUPPORTS EXTERNAL3G MODEM+WIFI 


人 Screen+Flash 10.1 with PRIORITY SHIPPING FROM SUPERSALE.99 USA SELLER by SuperPad 
贞 (28) 


vsaseuen 太太 信 


$89.99 


[me | SKYTEX Skypad Alpha 7" Touch Screen Cortex-A8 Tablet Android OS 2.3 by SKYTEX 


> Explore similar items 
截取 自 亚马逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-7 相关 推荐 列表 ， 浏 览 过 这 个 商品 的 用 户 经 常 购买 的 其 他 商品 















































Frequently Bought Together 


2 i Price For All Three: $108.05 


gt ~ 
4 和 下 | 色 Add all three to Cart | | Add all three to Wish List | 
mb 


Show availability and shipping details 





This item: R Cookbook (O'Reilly Cookbooks) by Paul Teetor Paperback $25.95 
R in a Nutshell: A Desktop Quick Reference by Joseph Adler Paperback $35.99 
ggplot2: Elegant Graphics for Data Analysis (Use R) by Hadley Wickham Paperback $46.11 


截取 自 亚 马 逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-8 ”亚马逊 的 打包 销售 界面 
至 于 个 性 化 推荐 系统 对 亚马逊 的 意义 ， 其 CEO Jeff Bezos 在 接受 采访 时 曾经 说 过 ， 亚 马 逊 相 
对 于 其 他 电子 商务 网 站 的 最 大 优势 就 在 于 个 性 化 推荐 系统 , 该 系统 让 每 个 用 户 都 能 拥有 一 个 自己 
的 在 线 商店 ， 并 且 能 在 商店 中 找到 自己 感 兴趣 的 商品 。? 








加 加 图 



































We have 6.2 million customers, we Should have 6.2 million stores. There 


should be the optimum store for each and every customer. 





我 们 有 62 万 用 户 ， 因 此 也 应 有 62 万 个 商店 。 我 们 应 该 给 每 个 用 户 提供 
最 符合 他 需求 的 商店 。 








人 参见 Lessons on recommendation Systems, 地 址 为 http://blog.Kiwitobes.com/?p=58。 
© 参见 Mark Levene 的 An Introduction to Search Engines and Web Navigation, Second Edition ( Wiley, 2010 )。 
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1.2.2 ”电影 和 视频 网 站 


在 电影 和 视频 网 站 中 , 个 性 化 推荐 系统 也 是 一 种 重要 的 应 用 。 它 能 够 帮助 用 户 在 浩瀚 的 视频 
库 中 找到 令 他 们 感 兴趣 的 视频 。 在 该 领域 成 功 使 用 推荐 系统 的 一 家 公司 就 是 Netflix， 它 和 亚马逊 
是 推荐 系统 领域 最 具 代 表 性 的 两 家 公司 。 

Netflix 原 先是 一 家 DVD 租赁 网 站 ， 最 近 这 几 年 也 开始 涉足 在 线 视频 业务 。Netflix 非 常 重视 个 
性 化 推荐 技术 , 并 且 在 2006 年 起 开始 举办 著名 的 Netflix Prize 推 荐 系统 比赛 "。 该 比赛 悬赏 100 万 美 
元 , 希望 研究 人 员 能 够 将 Netflix 的 推荐 算法 的 预测 准确 度 提升 10%。 该 比赛 举办 3 年 后 ， 由 AT&T 
sn 该 比赛 对 推荐 系统 的 发 展 起 到 了 重要 的 推动 作用 : 一 方面 该 比赛 

给 学 术 界 提供 了 一 个 实际 系统 中 的 大 规模 用 户 行为 数据 集 ( 40 万 用 户 对 2 万 部 电影 的 上 亿 条 评分 
记录 ); 另 一 方面 , 3 年 的 比赛 中 , 参赛 者 提出 了 很 多 推荐 算法 , 大 大 降低 了 推荐 系统 的 预测 误差 。 
此 外 ,比赛 吸引 了 很 多 优秀 的 科研 人 员 加 入 到 推荐 系统 的 研究 中 来 , 大 大 提高 了 推荐 系统 在 业界 




















和 学 术 界 的 影响 力 。 
图 1-9 是 Netflix 的 电影 推荐 界面 ， 从 中 可 以 看 到 Netflix 的 推荐 结果 展示 页 面包 含 了 以 下 几 个 
部 分 。 


口 电影 的 标题 和 海报 。 
口 用 户 反馈 模块 一 一 包括 Play (播放 )、 评 分 和 Not Interested (不 感 兴趣 ) 3 种 。 
口 推荐 理由 一 一 因为 用 户 曾经 喜欢 过 别 的 电影 。 











Suggestions to Watch Instantly Seeall > 


各 The Fighter -| Stranded: I've Come from -That sq That 70s Show 
a Plane... 
FIGHTER Because you enjoyed: LO | | Because you enjoyed: 
Shutter sland 3 Because you enjoyed: \ = Futurams 
Slumdog Milionaire ~ Touching the Void ot | 
六 ue Sa Born nto Brothels YY 
NA ,YN we@ The Battie of Algiers 人 vc 
< 











诡 宽 诡 冤 了 宽 痪 遍 遍 可 壳 亮 遍 遍 可 
Not nterested Not nterested Not Interested 
Children & Family Movies Seeall > 
Phineas and Ferb CON Lemonade Mouth Good Luck Charlie 

Because you enjoyed: Er | Because you enjoyed: Because you enjoyed: 
The Karate Kid Tangled The Karate Kid 

ew eprsooes 一 

宽 禄 禄 禄 了 宽 视 禄 禄 1 宽 视 廊 禄 1 








截取 自 Netflix 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-9 ”Netflix 的 电影 推荐 系统 用 户 界面 


























GD 参见 http://netflixprize.com/。 
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从 Netflix 的 推荐 理由 来 看 ,它们 的 算法 和 亚马逊 的 算法 类 似 ， 也 是 基于 物品 的 推荐 算法 ， 即 

















给 用 户 推 荐 和 他 们 曾经 喜欢 的 





电影 相似 的 电影 。 至 于 推荐 系统 在 Netflix 中 起 到 的 作用 ，Netflix 在 


宣传 资料 "中 宣称 ， 有 60% ”的 用 户 是 通过 其 推荐 系统 找到 自己 感 兴趣 的 电影 和 视频 的 。 


YouTube 作 为 美 
户 在 YouTube 中 面临 着 严重 的 信 ， 











息 过 载 问题 。 


国 最 大 的 视频 网 站 ， 拥 有 大 量 用 户 上 传 的 视频 内 容 。 由 于 视频 库 非常 大 ， 用 


为 此 ，YouTube 在 个 性 化 推荐 领域 也 进行 了 深入 研 




















究 , 尝试 了 很 多 算法 。 在 YouTube 最 新 的 论文 "中 ,他们 的 研究 人 员 表 示 现 在 使 用 的 也 是 基于 物品 


的 推荐 算法 。 为 了 证 明 个 性 化 推荐 的 有 效 性 ，YouTube 
点 击 率 和 热门 视频 列表 的 点 击 率 ， 实 验 


J 
结果 





曾经 





做 个 一 个 实验 ， 上 
表明 个 性 化 推荐 的 点 击 率 是 热门 视频 点 击 率 的 两 倍 。 





较 了 个 性 化 推荐 的 





和 YouTube 类 似 ， 美 国 另 一 家 著名 的 视频 网 站 Hulu 也 有 自己 的 个 性 化 推荐 页 面 。 如 图 1-10 
所 示 ，Hulu 在 展示 推荐 结果 时 也 提供 了 视频 标题 、 缩 略图 、 视 频 的 平均 分 、 推 荐 理由 和 用 户 反 


















































馈 模 块 。 

Video Type: Filters: 

TV Shows & Movies Captions 口 Free 

Top Recommendations 1|of4P 

€ Wm, The 
/ALANAI ) 过 
vo | MEMORIES Only Thrill 

Brooklyn Rules 到 Morlang Fatal Memories The Only Thrill 2 
Arey Arey teres ey sted Are you inter 

yes yes 1 yes Ive yes 0 ve see 
Science Fiction 1 |of4P 
rr | 

A FINALCUT CAPRICA 
< [hi av 

And You Thought Your The Final Cut From Beyond Caprica [ce] 

Parents Were Weird! Recommended beca Re ended bec Recomme 

sted Are you inter 

Am yes | no yes | n 1 yes 0 

yes 

截取 自 Hulu 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-10 ”视频 网 站 Hulu 的 个 性 化 推荐 界面 

















GD 参见 http://cdn-0.nflximg.com /us/pdf/Consumer Press_Kit.pdf, Consumer Press Kit。 

@ 关于 这 个 60% 的 数字 和 前 面 提 到 的 与 亚马逊 有 关 的 30%, 我 们 想 指出 的 是 如 果 网 站 将 推荐 系统 放 在 很 重要 的 位 置 ， 
比如 放 在 首页 ， 那 么 这 个 比例 自然 会 高 。 但 需要 注意 的 是 ， 用 户 在 网 站 中 除了 推荐 系统 ， 还 可 以 通过 搜索 和 分 类 
目录 获得 自己 感 兴趣 的 信息 ,那么 在 这 3 种 方式 中 ,如 果 利 用 推荐 系统 的 比例 能 够 达到 30% ~ 60%,， 还 是 能 够 说 明 
推荐 系统 的 有 效 性 。 当 然 ， 如 果 要 彻底 证 明 这 个 问题 ， 只 能 将 整个 推荐 系统 去 掉 ， 然 后 对 比 有 推荐 系统 的 网 站 和 

没有 推荐 系统 的 网 站 的 收入 ， 当 然 这 种 实验 永远 不 会 发 生 。 

@ 参见 http://dl.acm. org/citation. cfm?id=1864770，The Youtube video recommendation system。 
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1.2.3 个 性 化 音乐 网 络 电台 


个 性 化 推荐 的 成 功 应 用 需要 两 个 条 件 。 第 一 是 存在 信息 过 载 , 因为 如 果 用 户 可 以 很 容易 地 从 
所 有 物品 中 找到 喜欢 的 物品 ， 就 不 需要 个 性 化 推荐 了 。 第 二 是 用 户 大 部 分 时 候 没 有 特别 明确 的 需 
求 ， 因 为 用 户 如 果 有 明确 的 需求 ， 可 以 直接 通过 搜索 引擎 找到 感 兴趣 的 物品 。 

在 这 两 个 条 件 下 ,个 性 化 网 络 电台 无 疑 是 最 合适 的 个 性 化 推荐 产品 。 首 先 ,音乐 很 多 , 用户 
不 可 能 听 完 所 有 的 音乐 再 决定 自己 喜欢 听 什 么 , 而 且 每 年 新 的 歌曲 在 以 很 快 的 速度 增加 , 因此 用 
户 无 疑 面临 着 信息 过 载 的 问题 。 其 次 ， 人 们 听 音 乐 时 ,一 般 都 是 把 音乐 作为 一 种 背景 乐 来 听 , 很 
少 有 人 必须 听 某 首 特定 的 歌 。 对 于 普通 用 户 来 说 , 听 什 么 歌 都 可 以 ,只 要 能 够 符合 他 们 当时 的 心 
情 就 可 以 了 。 因 此 , 个 性 化 音乐 网 络 电台 是 非常 符合 个 性 化 推荐 技术 的 产品 。 

目前 有 很 多 知名 的 个 性 化 音乐 网 络 电台 。 国 际 上 著名 的 有 Pandora ( 参见 图 1-11 ) 和 Last.fm 
(参见 图 1-12 )， 国 内 的 代表 则 是 豆 辩 电台 ( 参见 图 1-13 )。 这 3 种 应 用 虽然 都 是 个 性 化 网 络 电台 ， 
但 背后 的 技术 却 不 太一 样 。 























加 





DID Y You can get a station to play a more Specific -一 
KNOW 3? sound. show me share | 中 NM 


| Create a New Station... || < 色 
Calypso e I Never Get Out ~ 
Your Stations bb Of This World Alive 


(Unplugged) {Live) 











by: john Denver by: Hank William... 


country music . 
Y on: Unplugged 1... on: Your Cheatin... 


Secret Garden Radio y < 


] 全 





上 
24 QuickMix v 








a superstar by the age of 25; he was dead at the age of 29, In 

those four short years, he established the rules for all the country 

CE he performers who followed him and, in the process, much of popular 
pr music. Hank wrote a body of songs that became p.,.. 


LA full bio... 


截取 自 Pandora 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-11 Pandora 个 性 化 网 络 电台 的 用 户 界面 


F 本 Hank Williams is the father of contemporary country music. He was 
| 志 叉 起 
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所 开始 新 电台 Loreena McKennitt 电台 


这 是 您 首次 收听 Clannad 。 
































































































































Clannad — Newgrange 


来 自 Magical Ring 
OME ee -02:40 















™ Clannad aa 分 字 曲 目 
已 播放 5.116.358 ECEETEE 
celtic, folk, irish, n Es| 了 


目 向 手机 发 送 铃声 
截取 自 Lastfm 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-12 ”Last.fm 个 性 化 网 络 电 台 的 用 户 界面 























张雨生 
条 < 自由 歌 > 1994 
有 二 我 的 未 来 不 是 林 
加 
5 ss 
D0 号 











截取 自 豆 准 个 性 化 网 络 电 台 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-13” 豆 辩 个 性 化 网 络 电台 的 用 户 界 而 


从 前 端 界 面 上 看 ， 这 3 个 个 性 化 网 络 电 台 很 类 似 。 它 们 都 不 允许 用 户 点 歌 ， 而 是 给 用 户 几 种 
反馈 方式 一 一 喜欢 、 不 喜欢 和 跳 过 。 经 过 用 户 一 定时 间 的 反馈 ,电台 就 可 以 从 用 户 的 历史 行为 中 
习 得 用 户 的 兴趣 模型 ， 从 而 使 用 户 的 播放 列表 越 来 越 符合 用 户 对 歌曲 的 兴 

Pandora 背 后 的 音乐 推荐 算法 主要 来 自 于 一 个 叫做 音乐 基因 工程 的 项 目 。 这 个 项 目 起 始 于 
2000 年 1 月 6 日 ， 它 的 成 员 包括 音乐 家 和 对 音乐 有 兴趣 的 工程 师 。Pandora 的 算法 主要 基于 内 容 ， 
其 音乐 家 和 研究 人 员 亲 自 听 了 上 万 首 来 自 不 同 歌 手 的 歌 , 然后 对 歌曲 的 不 同 特性 〈 比如 旋律 、 节 
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奏 、 编 曲 和 歌词 等 ) 进行 标注 ， 这 些 标注 被 称 为 音乐 的 基因 。 然 后 ，Pandora 会 根据 专家 标注 的 
基因 计算 歌曲 的 相似 度 ， 并 给 用 户 推荐 和 他 之 前 喜欢 的 音乐 在 基因 上 相似 的 其 他 音乐 。 
Last.fm 于 2002 年 在 英国 成 立 。Last.fm 记 录 了 所 有 用 户 的 听 歌 记录 以 及 用 户 对 歌曲 的 反馈 , 在 
这 一 基础 上 计算 出 不 同 用 户 在 歌曲 上 的 喜好 相似 度 , 从 而 给 用 户 推 荐 和 他 有 相似 听 歌 爱好 的 其 他 
用 户 喜 欢 的 歌曲 。 同 时 ，Lastfm 也 建立 了 一 个 社交 网 络 ， 让 用 户 能 够 和 其 他 用 户 建立 联系 ， 同 时 
也 能 让 用 户 给 好 友 推 荐 自己 喜欢 的 歌曲 。 和 Pandora 相 比 ，Last.fm 没 有 使 用 专家 标注 ， 而 是 主要 
利用 用 户 行为 计算 歌曲 的 相似 度 。 
音乐 推荐 是 推荐 系统 里 非常 特殊 的 领域 .2011 年 的 Recsys 大 会 专门 邀请 了 Pandora 的 研究 人 员 
对 音乐 推荐 进行 了 演讲 "。 演 讲 人 总 结 了 音乐 推荐 的 如 下 特点 。 
口 物品 空间 大 ”物品 数 很 多 ， 物 品 空 间 很 大 ， 这 主要 是 相对 于 书 和 电影 而 言 。 
口 消费 每 首 歌 的 代价 很 小 ”对 于 在 线 音乐 来 说 ， 音 乐 都 是 免费 的 ， 不 需要 付费 。 
口 物品 种 类 丰富 ”音乐 种 类 丰富 ， 有 很 多 的 流派 。 
口 了 听 一 首 歌 耗 时 很 少 ” 听 一 首 音乐 的 时 间 成 本 很 低 ， 不 太 浪 费用 户 的 时 间 ， 而 且 用 户 大 都 
把 音乐 作为 背景 声音 ， 同 时 进行 其 他 工作 。 
口 物品 重用 率 很 高 ”每 首 歌 用 户 会 听 很 多 遍 ， 这 和 其 他 物品 不 同 ， 比 如 用 户 不 会 反复 看 一 
个 电影 ， 不 会 反复 买 一 本 书 。 
口 用 户 充 满 激 情 ”用 户 很 有 激情 ， 一 个 用 户 会 昕 很 多 首 歌 。 
口 上 下 文 相 关 ”用户 的 口味 很 受 当 时 上 下 文 的 影响 ， 这 里 的 上 下 文 主要 包括 用 户 当 时 的 心 
情 (比如 诅 丧 的 时 候 喜欢 听 励 志 的 歌曲 ) 和 所 处 情境 ( 比如 睡觉 前 喜欢 听 轻 音乐 )。 
口 次 序 很 重要 ”用户 听 音 乐 一 般 是 按照 一 定 的 次 序 一 首 一 首 地 听 。 
口 很 多 播放 列表 资源 ”很 多 用 户 都 会 创建 很 多 个 人 播放 列表 。 
口 不 需要 用 户 全 神 贯 注 “音乐 不 需要 用 户 全 神 贯 注 地 听 ， 很 多 用 户 将 音乐 作为 背景 声音 。 
口 高 度 社会 化 ”用 户 听 音乐 的 行为 具有 很 强 的 社会 化 特性 ， 比 如 我 们 会 和 好 友 分 享 自己 喜 
欢 的 音乐 。 
上 面 这 些 特 点 决定 了 音乐 是 一 种 非常 适合 用 来 推荐 的 物品 。 因 此 , 尽管 现在 很 多 推荐 系统 都 
是 作为 一 个 应 用 存在 于 网 站 中 ， 比 如 亚马逊 的 商品 推荐 和 Netflix 的 电影 推荐 , 唯 有 音乐 推荐 可 以 
支持 独立 的 个 性 化 推荐 网 站 ， 比 如 Pandora 、Lastfm 和 豆 办 网 络 电台 。 




























































































1.2.4 社交 网 络 


最 近 5 年 ， 互 联网 最 激动 人 心 的 产品 莫 过 于 以 Facebook 和 Twitter 为 代表 的 社交 网 络 应 用 。 在 
社交 网 络 中 , 好 友 们 可 以 互相 分 享 、 传 播 信 息 。 社交 网 络 中 的 个 性 化 推荐 技术 主要 应 用 在 3 个 方面 : 
口 利用 用 户 的 社交 网 络 信息 对 用 户 进 行 个 性 化 的 物品 推荐 ; 

口 信息 流 的 会 话 推荐 ; 
口 给 用 户 推荐 好 友 。 














GD PPT 为 Music Recommendation and Discovery， 见 http:/www.slidesharenetplamere/music-recommendation-and-discovery。 
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Facebook 最 宝贵 的 数据 有 两 个 , 一 个 是 用 户 之 间 的 社交 网 络 关系 , 男 一 个 是 用 户 的 偏好 信息 。 
oS Facebook 推 出 了 一 个 推荐 API， 称 为 Instant Personalization。 该 工具 根据 用 户 好 友 喜 欢 的 信 
息 ， 给 用 户 推荐 他 们 的 好 友 最 喜欢 的 物品 。 很 多 网 站 都 使 用 了 Facebook 的 API 来 实现 网 站 的 个 性 
化 。 表 1-1 中 是 使 用 了 Facebook 的 Instant Personalization 的 具有 代表 性 的 网 站 。 图 1-14 是 著名 的 电 
视 剧 推荐 网 站 Clicker 使 用 Instant Personalization 给 用 户 进行 个 性 化 视频 推荐 的 界面 。 


表 1-1 使 用 了 Facebook Instant Personalization 工 具 的 网 站 ” 






































网 站 网 站 类 型 
Clicker 个 性 化 电视 推荐 
Rotten Tomatoes 电影 评论 
Docs.com 协作 式 文档 编辑 
Pandora 个 性 化 音乐 网 络 电台 
Yelp 本 地 评论 
Scribd 社会 化 阅读 








Whats On For Xiang: Tuesday, December 13, 2011 


All M M Recommended 党 


The Big Bang Theory: The 
Speckerman Recurrance 


S00s0n 5 0 11 Date: Dec 08, 2011 


Leonard has | 0 face his ol d ol bully while 
只 enny rthink She imn nay hav lly Tr 


Available at: Clicker ces VUDU 











Jocelyn Wang and 12 other friends like The Big 
Bang Theory 

















截取 自 Clicker 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-14 ”Clicker 利 用 好 友 的 行为 给 用 户 推荐 电视 剧 


除了 利用 用 户 在 社交 网 站 的 社交 网 络 信息 给 用 户 推荐 本 站 的 各 种 物品 , 社交 网 站 本 身 也 会 利 

用 社交 网 络 给 用 户 推荐 其 他 用 户 在 社交 网 站 的 会 话 。 如 图 1-15 所 示 ， 每 个 用 户 在 Facebook 的 个 人 

ed EU 的 各 种 分 享 , 并 且 能 对 这 些 分 享 进行 评论 。 每 个 分 享 和 它 的 所 有 评论 被 称 为 一 

会 话 ,如 何 给 这 些 会 话 排序 是 社交 网 站 研究 中 的 一 个 重要 话题 。 为 此 ,Facebook 开 发 了 EdgeRank 
We 使 用 户 能 够 尽量 看 到 熟悉 的 好 友 的 最 新 会 话 。 









































人 中 这 些 网 站 的 详细 信息 见 http:/www.facebook.coryinstantpersonalization/。 
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| 和 其 他 2 个 朋友 最 近 读 过 的 文章 
©@! "Linsanity" touches down in star-struck Canada 


Wp HIV AIDS soon to become history 起 


@@! Google offering to pay web users to trackt 


日 : 


Happy Research, Happy Hour(s) 。 


[OR| Happy Grad Students, Happy Research, Happy Hour(s) 
40 位 成 员 


wane 反 mg nF Happy Grad Students, 




















bee yy 
网 易 新 闻 编辑 部 ， 牛 B http://t.co/5GPI6aDb 
沁 菠 : 回复 on Twitter . 星期 三 10:13 来 自 Twitter * 中 


四 4 个 人 都 觉得 这 报 哟 的 。 


Weg 老 片子 
星期 三 13:36* 签 


留 段 话 吧 .… 











截取 自 Facebook， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-15 用户 在 Facebook 的 信息 流 


除了 根据 用 户 的 社交 网 络 以 及 用 户 行 为 给 用 户 推荐 内 容 , 社交 网 站 还 通过 个 性 化 推荐 服务 给 
用 户 推 荐 好 友 。 图 1-16 显 示 了 著名 社交 网 站 的 好 友 推 荐 界面 。 

















你 可 能 认识 的 人 显示 全 部 ”People You May Know 

pe 

， ee, Product Manager at X 
12 个 共同 的 朋友 a Douban 
多 加 为 好 友 © Connect 

pg, Programmer at x 

pe Netease 
16 个 共同 的 朋友 © Connect 
包 加 为 好 友 es, Director, Development x 


Dept at NCsoft China Co. Ltd 

















Ra 天 © connect 
10 个 共同 的 朋友 
’ 地 加 为 好 友 See more > 
Who to follow - refresh - view all 可 能 感 兴趣 的 人 织 一 换 
CY or ®@ -Follow a 
EY Promoted - Followed by @seotoppage and 二 加 关注 
others 8 个 F 区 
or Follow 我 关注 的 人 中 : 
I write code for Twitter, profess to know very little... "0 
bmgpse 。 ) Follow 、 0 等 3 
Followed by @blankyao and others 人 也 关注 了 他 
截取 自 Facebook、Twitter、LinkedIn 和 新 浪 微 博 ， 图 中 相关 内 容 的 著作 权 
归 原 著作 权 人 所 有 





图 1-16 不 同 社交 网 站 中 好 友 推 荐 系统 的 界面 (左上 为 Facebook， 左 下 为 Twitter， 
右上 为 LinkedIn， 右 下 为 新 浪 微 博 ) 
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1.2.5 个 性 化 阅读 


阅读 文章 是 很 多 互联 网 用 户 每 天 都 会 做 的 事情 。 个 性 化 阅读 同样 符合 前 面 提出 的 需要 个 性 化 
推荐 的 两 个 因素 : 首先 ， 互 联网 上 的 文章 非常 多 ， 用 户 面临 信息 过 载 的 问题 ; 其次， 用 户 很 多 
时 候 并 没有 必须 看 某 篇 具体 文章 的 需求 ， 他 们 只 是 想 通 过 阅读 特定 领域 的 文章 了 解 这 些 领域 的 
动态 。 

目前 互联 网 上 的 个 性 化 阅读 工具 很 多 , 国际 知名 的 有 GoogleReader, 国内 有 人 鲜果 网 等 。 同时 ， 
随 着 移动 设备 的 流行 ， 移 动 设备 上 针对 个 性 化 阅读 的 应 用 也 很 多 ， 其 中 具有 代表 性 的 有 Zite 和 
Flipboard。 

Google Reader 是 一 款 流 行 的 社会 化 阅读 工具 。 它 人 允许 用 户 关注 自 己 感 兴趣 的 人 , 然后 看 到 所 
关注 用 户 分 享 的 文章 。 如 图 1-17 所 示 ， 如 果 单 击 左 侧 的 People you follow ( 你 关注 的 人 )， 就 可 以 
看 到 其 他 用 户 分 享 的 文章 。 

















Go 'gle reader All items -| | Search 
Add a subscription Machine Learning (Theory) » Show: Expanded - Lig 
All items (1000+) > ~ Show: 2 new items - all items | Mark all as read | ~ | | Refresh || Feed settings... ~ show detaild 
People you follow (1000+) 辐 
ae A paper not at Snowbird - Unfortunately, a scheduling failure meant | missed all ”Apr 19, 2011 

蔷 郑 (10) 王 

国 Yiding Tang (36) 三 | Apapernotat Snowbird 

乱 s 张 沈 妥 (7 人 1) 2 by 
Sharing settings » 6 people liked this 
Explore 
Subscriptions Unfortunately, a scheduling failure meant | missed all of AlStat and most of the learning workshop, 


日 区 recommender system (20) otherwise known as Snowbird, when its at Snowbird 


Machine Learning (The… (2) At snowbird, the talk on Sum-Product networks by Hoifung Poon stood out to me (Pedro Domingos 
Blog of Collective In 4| is acoauthor). The basic point was that by appropriately constructing networks based on sums 
and products, the normalization problem in probabilistic models is eliminated, yielding a highly 
tractable yet flexible representation+learning algorithm. As an algorithm, this is noticeably cleaner 





六 


Amancio Bouza's Resea 

















Daniel Lemires blog (7) than deep belief networks with a claim to being an order of magnitude faster and working better on 
日 ceeking with Greg an image completion task. 
Dns Blog Snowbird doesn't have real papers 一 just the abstract above. | look forward to seeing the paper 
Social Media, Data Mi (added: Rodrigo points out the deep learning workshop draft.) 
Mr Data Mining Research (3) 
ECThe Long Tail Add star Like Share ‘S|Share with note [TEmail Sendto 
Business Intelligence Edittags: recommender System 
collectivae.net The Heritage Health Prize - The Heritage Health Prize is potentially the largest Apr 11, 2011 
向 量 Vector 的 空间 COLT open questions - Alina and Jake point out the COLT Call for Open Apr 6, 2011 
Beyond Search i 





截取 自 Google Reader， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-17 Google Reader 社 会 化 阅读 


和 Google Reader 不 同 , 个 性 化 阅读 工具 Zite 则 是 收集 用 户 对 文章 的 偏好 信息 。 如 图 1-18 所 示 ， 
在 每 篇 文章 右 侧 ，Zite 都 允许 用 户 给 出 喜欢 或 不 喜欢 的 反馈 ， 然 后 通过 分 析 用 户 的 反馈 数据 不 停 
地 更 新 用 户 的 个 性 化 文章 列表 。Zite 推 出 后 获得 了 巨大 的 成 功 ， 后 被 CNN 收 购 。 
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The Atlantic 


Did you enjoy reading 
this? 


tvEs 地 NO 


Google+: In Praise of Starting Over 


Give me WOre from... 


| joined Facebook in 2004 and Twitter in 2007. Over the years, | built up a lot of 加 he Artanti 
connections on those networks, and | get a lot ofvalue out of at least one of them. 

But with all the friends and followers and followed comes noise, Much as 1ve tried Give me more about... 
to tame my network, it feels more like a hydra or the carnivorous plant from Little 


Shop of Horrors than the calm and orderly information drag net that | thought | was 


weaving 
Nerwork Effect 
Somehow, though, the idea of unfollowing or unfriending everyone and starting 
fresh seemed impossible to execute. It might take a long time, | told myself. | might Networks 
hurt feelings, too. And my Twitter network, at least, is still pretty functional, more 
feral than wild. So |'ve been stuck, unable to restart my networks, but unable to 
manage the information coursing through them. | needed a greenfield in which to 
grow a different network 


This is one reason that |'ve loved Instagram, the iPhone-only photosharing app. | 
decided on a whim early on that 1d only connect with pe 

the network that sprouted there is small and manageablt 只 Twitter 

personal ffiends travels and dinners and that all feels go 


Yesterday on Google+ when a small group of friends wen 
the system, tech journalist Chris Mims pointed out this is » Read It Later 
Google 5 new social service, “Also it's a chance for a resta 


everyone whose name | don't recognize, simple as that. S 国 Delicious 











截取 自 Zite， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-18 ”Zite 个 性 化 阅读 界面 


另 一 家 著名 的 新 闻 阅 读 网 站 Digg 也 在 首页 尝试 了 推荐 系统 。"Digg 首 先 根据 用 户 的 Digg 历 史 
计算 用 户 之 间 的 兴趣 相似 度 , 然后 给 用 户 推荐 和 他 兴趣 相似 的 用 户 喜 欢 的 文章 。 根 据 Digg 自 己 的 
统计 ， 在 使 用 推荐 系统 后 ， 用 户 的 digg 行 为 明显 更 加 活跃 ，digg 总 数 提高 了 40%， 用 户 的 好 友 数 
平均 增加 了 24% ， 评 论 数 增 加 了 11%。 


1.2.6 ”基于 位 置 的 服务 


在 中 关 村 闲逛 时 , 肚子 俄 了 , 打开 手机 , 发 现 上 面 给 你 推荐 了 几 家 中 关 村 不 错 的 饭馆 , 价格 、 
环境 、 服 务 、 口 味 都 如 你 所 愿 ， 这 几乎 就 是 基于 位 置 的 个 性 化 推荐 系统 最 理想 的 场景 了 。 随 着 移 
动 设备 的 飞速 发 展 , 用 户 的 位 置信 息 已 经 非常 容易 获取 ， 而 位 置 是 一 种 很 重要 的 上 下 文 信息 , 基 
于 位 置 给 用 户 推荐 离 他 近 的 且 他 感 兴趣 的 服务 ， 用 户 就 更 有 可 能 去 消费 。 

基于 位 置 的 服务 往往 和 社交 网 络 结合 在 一 起 。 比 如 Foursquare 推 出 了 探索 功能 ， 给 用 户 推荐 
好 友 在 附近 的 行为 ( 如 图 1-19 所 示 )。 
































Qa 详 见 Digg 官 方 博客 上 的 文章 “Digg Recommendation Engine Updates”,， 地 址 为 http://about.digg.com/blog/digg-recom- 


mendation-engine-updates。 
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Trending places within 5 mi (30 places) 


Grand Central Terminal 

87 E 42nd St 

1 25F 

Apple Store 

767 Sth Ave (btw 58th & 59th St) 
€ 219r e 





Q gluten-free 


ltalian Grocery Supermarket Coffee Shd 


Recommended within 5 mi (30 places) 


Otto Enoteca Pizzeria 
1 Fifth Ave {at 8th St) 


Cy 





Starbucks 
13-25 Astor PI (at Lafayette St) 
1 10 . 


Marriott Marquis Hotel 











Explore 


截取 自 FourSquare， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-19 Foursquare 的 探索 功能 界面 





1.2.7 个 性 化 邮件 


我 们 每 天 都 会 收 到 大 量 的 邮件 ， 这 些 邮 件 有 些 对 我 们 很 重要 ( 比如 领导 交代 任务 的 邮件 )， 
有 些 比较 次 要 ( 比如 别人 邀约 周末 打球 的 邮件 )， 还 有 些 是 垃圾 邮件 。 垃 圾 邮件 可 以 通过 垃圾 邮 
件 过 滤器 去 除 , 这 是 一 个 专门 的 研究 领域 , 这 里 就 不 讨论 了 。 但 在 正常 的 邮件 中 ,如果 能 够 找到 
对 用 户 重要 的 邮件 让 用 户 优先 浏览 ， 无 疑 会 大 大 提高 用 户 的 工作 效率 。 

其 实 , 目前 在 文献 中 能 够 查 到 的 第 一 个 推荐 系统 Tapestry "就 是 一 个 个 性 化 邮件 推荐 系统 , 它 
通过 分 析 用 户 阅 读 邮 件 的 历史 行为 和 习惯 对 新 邮件 进行 重新 排序 ， 从 而 提高 用 户 的 工作 效率 。 

谷歌 的 研究 人 员 在 这 个 问题 上 也 进行 了 深入 研究 , 于 2010 年 推出 了 优先 级 收 件 箱 功 能 。 如 图 
1-20 所 示 ， 该 产品 通过 分 析 用 户 对 邮件 的 历史 行为 ， 找 到 用 户 感 兴趣 的 邮件 ， 展 示 在 一 个 专门 的 
收 件 箱 里 。 用 户 每 天 可 以 先 浏览 这 个 邮箱 里 的 邮件 ， 再 浏览 其 他 邮件 。 

谷歌 的 研究 表明 ， 该 产品 可 以 帮助 用 户 节约 6% 的 时 间 ?。 在 如 今 这 个 时 间 就 是 金钱 的 年 代 ， 
6% 的 刷 约 无 疑 是 一 大 进步 。 




















中 通过 协同 过 滤 筛 选 信息 。 

@ 参见 读 写 网 的 报道 Google Says Priority Inbox Users Spend 6% Less Time on Email(So Are You Using It?) ( http://www. 
readwriteweb.comy/search?query=google+says+priority+inbox+use&x=0&o=0 ) 或 者 谷歌 的 论文 The Learning Behind 
Gmail Priority Inbox ( http://static.googleusercontent.com/external-content/untrusted_dlcp/research.google.com /zh-CN 
/pubs/archive/36955.pdf )。 
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YY 
h 
人 了 [MI | | Search Mail and Docs Search the Web 
Mail 
Contact 于 Archive Reportspam Deletie » EE Movetov Labelsv Moreactionsv Refresh 
Tasks ~ Important and unread ~ 
E » Anna Bolotovsky » Flight info for this weekend 
ompose ma 
; Pierre Bernard » Photo of your baby niece 
Priority Inbox (3) Jason Toff ® Urgent: need your address 
Inbox (5) - Starred ~ 
pe 多 全 Nick Foster 3 pars Hotel 
tared 3 会 Arielle Reinstein » recipe for no knead bread 
Sent Mail =E TS 
Drafts (9) ep 
Joe Shmo » Save on car insurance 
npn Jason Toff » When you get a chance... 
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加 To Ee Google Voice » New voicemail from (408) 327-5505 at 4:10 PM 
13 morer Bear, me, Alex (3) » Buzz: Anyone know what kind of dog this is? 
Crain Walker 2_ NY lav Nver 











截取 自 Gmail， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-20 ”Gmail 的 优先 级 邮箱 

















1.2.8 个 性 化 广告 


告 是 互联 网 公司 生存 的 根本 ,很 多 互联 网 公司 的 熏 利 模式 都 是 基于 广告 的 , 而 广告 的 CPC、 
CPM 直 接 决 定 了 很 多 互联 网 公司 的 收入 。 目前 , 很 多 广告 都 是 随机 投放 的 , 即 每 次 用 户 来 了 , 随 
机 选择 一 个 广告 投放 给 他 。 这 种 投放 的 效率 显然 很 低 ， 比 如 给 男性 投放 化 妆 品 广告 或 者 给 女性 投 
放 西 装 广告 多 半 都 是 一 种 浪费 。 因 此 ， 很 多 公司 都 致力 于 广告 定向 投放 (Ad Targeting ) 的 研究 ， 
即 如 何 将 广告 投放 给 它 的 潜在 客户 群 。 个 性 化 广告 投放 目前 已 经 成 为 了 一 门 独立 的 学 科 一 一 计算 

告 学 一 一 但 该 学 科 和 推荐 系统 在 很 多 基础 理论 和 方法 上 是 相通 的 , 比如 它们 的 目的 都 是 联系 用 
户 和 物品 ， 只 是 在 个 性 化 广告 中 ， 物 品 就 是 广告 。 

个 性 化 广告 投放 和 狭义 个 性 化 推荐 的 区 别 是 , 个 性 化 推荐 着 重 于 帮助 用 户 找到 可 能 令 他 们 感 
兴趣 的 物品 , 而 广告 推荐 着 重 于 帮助 广告 找到 可 能 对 它们 感 兴趣 的 用 户 , 即 一 个 是 以 用 户 为 核心 ， 
而 另 一 个 以 广告 为 核心 。 目 前 的 个 性 化 广告 投放 技术 主要 分 为 3 种 。 

口 上 下 文 广告 ”通过 分 析 用 户 正在 浏览 的 网 页 内 容 ， 投 放 和 网 页 内 容 相关 的 广告 。 代 表 系 

统 是 谷歌 的 Adsense。 

口 搜索 广告 ”通过 分 析 用 户 在 当前 会 话 中 的 搜索 记录 ， 判 断 用 户 的 搜索 目的 ， 投 放 和 用 户 

目的 相关 的 广告 。 

口 个 性 化 展示 广告 ”我们 经 常 在 很 多 网 站 看 到 大 量 展示 广告 (就 是 那些 大 的 横幅 网 片 )， 它 

们 是 根据 用 户 的 兴趣 ， 对 不 同 用 户 投放 不 同 的 展示 广告 。 雅 虎 是 这 方面 研究 的 代表 。 

广告 的 个 性 化 定向 投放 是 很 多 互联 网 公司 的 核心 技术 ,很 多 公司 都 秘 而 不 宣 。 不 过 ,雅虎 

司 是 个 例外 ， 它 发 表 了 大 量 个 性 化 广告 方面 的 论文 。 

在 个 性 化 广告 方面 最 容易 获得 成 功 的 无 疑 是 Facebook， 因 为 它 拥 有 大 量 的 用 户 个 人 资料 ， 可 
以 很 容易 地 获取 用 户 的 兴趣 ， 让 广告 商 选 择 自 己 希望 对 其 投放 广告 的 用 户 。 图 1-21 展 示 了 
Facebook 的 广告 系统 界面 ， 该 界面 允许 广告 商 选择 自己 希望 的 用 户 群 ， 然 后 Facebook 会 根据 广告 
商 的 选择 告诉 他 们 这 些 限 制 条 件 下 广告 将 会 覆盖 的 用 户 数 量 。 
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已 选择 2 个 种 类 * Show Selected 
截取 自 Facebook， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-21 Facebook 让 广告 商 选 择 定 向 投放 的 目标 用 户 











1.3 ”推荐 系统 评测 


什么 才 是 好 的 推荐 系统 ?这 是 推荐 系统 评测 需要 解决 的 首要 问题 ,一 个 完整 的 推荐 系统 一 般 
存在 3 个 参与 方 (如 图 1-22 所 示 ): 用 户 、 物 品 提供 者 和 提供 推荐 系统 的 网 站 。 以 图 书 推荐 为 例 ， 
首先 ,推荐 系统 需要 满足 用 户 的 需求 ,给 用 户 推 荐 那些 令 他 们 感 兴趣 的 图 书 。 其 次 ,推荐 系统 要 
让 各 出 版 社 的 书 都 能 够 被 推荐 给 对 其 感 兴趣 的 用 户 ， 而 不 是 只 推荐 几 个 大 型 出 版 社 的 书 。 最 后 ， 
好 的 推荐 系统 设计 ,能 够 让 推荐 系统 本 身 收集 到 高 质量 的 用 户 反馈 ,不断 完 善 推荐 的 质量 , 增加 
用 户 和 网 站 的 交互 ， 提 高 网 站 的 收入 。 因 此 在 评测 一 个 推荐 算法 时 ， 需 要 同时 考虑 三 方 的 利益 ， 
一 个 好 的 推荐 系统 是 能 够 令 三 方 共 赢 的 系统 。 
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1-22 ”推荐 系统 的 参与 者 
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在 推荐 系统 的 早期 研究 中 , 很 多 人 将 好 的 推荐 系统 定义 为 能 够 作出 准确 预测 的 推荐 系统 。 比 
如 ， 一 个 图 书 推荐 系统 预测 一 个 用 户 将 来 会 购买 《C++Primer 中 文 版 》 这 本 书 ， 而 用 户 后 来 确实 
购买 了 ,那么 这 就 被 看 做 一 次 准确 的 预测 。 预 测 准确 度 是 推荐 系统 领域 的 重要 指标 (没有 之 一 )。 
这 个 指标 的 好 处 是 , 它 可 以 比较 容易 地 通过 离线 方式 计算 出 来 ,从 而 方便 研究 人 员 快 速 评价 和 选 
择 不 同 的 推荐 算法 。 但 是 ， 很 多 研究 表明 ， 准 确 的 预测 并 不 代表 好 的 推荐 。“ 比 如 说 ， 该 用 户 早 
就 准备 灭 《C++ Primer 中 文 版 》 了 ， 无 论 是 否 给 他 推荐 ， 他 都 准备 购买 ， 那 么 这 个 推荐 结果 显然 
是 不 好 的 ， 因 为 它 并 未 使 用 户 购买 更 多 的 书 ， 而 仅仅 是 方便 用 户 购买 一 本 他 本 来 就 准备 买 的 书 。 
那么 , 对 于 用 户 来 说 , 他 会 觉得 这 个 推荐 结果 很 不 新 颖 , 不 能 令 他 惊喜 。 同 时, 对 于 《C++Primer 
中 文 版 》 的 出 版 社 来 说 ， 这 个 推荐 也 没 能 增加 这 本 书 的 潜在 购买 人 数 。 所 以 ， 这 是 一 个 看 上 去 很 
好 , 但 其 实 却 很 失败 的 推荐 。 举 一 个 更 极端 的 例子 , 某 推测 系统 预测 明天 太阳 将 从 东方 升 起 , 虽 
然 预测 准确 率 是 100%， 却 是 一 种 没有 意义 的 预测 。 

所 以 , 好 的 推荐 系统 不 仅仅 能 够 准确 预测 用 户 的 行为 ,而 且 能 够 扩展 用 户 的 视野 ， 帮 助 用 户 
发 现 那些 他 们 可 能 会 感 兴趣 , 但 却 不 那么 容易 发 现 的 东西 。 同 时 ,推荐 系统 还 要 能 够 帮助 商家 将 
那些 被 埋没 在 长 尾 中 的 好 商品 介绍 给 可 能 会 对 它们 感 兴趣 的 用 户 。 这 也 正 是 《长 尾 理 论 》 的 作者 
在 书 中 不 遗 余力 介绍 推荐 系统 的 原因 。 

为 了 全 面 评测 推荐 系统 对 三 方 利益 的 影响 , 本章 将 从 不 同 角 度 出 发 ， 提出 不 同 的 指标 。 这些 
间 标 包括 准确 度 、 覆 盖 度 、 新 颖 度 、 人 惊喜 度 、 信 任 度 、 透 明度 等 。 这 些 指标 中 ， 有 些 可 以 离线 计 
算 ， 有 些 只 有 在 线 才能 计算 ， 有 些 只 能 通过 用 户 问 卷 获 得 。 下 面 各 节 将 会 依次 介绍 这 些 指标 的 出 
发 点 、 含 义 ， 以 及 一 些 指标 的 计算 方法 。 





















































1.3.1 推荐 系统 实验 方法 


在 介绍 推荐 系统 的 指标 之 前 , 首先 看 一 下 计算 和 获得 这 些 指 标的 主要 实验 方法 。 在 推荐 系统 
中 , 主要 有 3 种 评测 推荐 效果 的 实验 方法 , 即 离线 实验 (offline experiment )、 用 户 调查 (user study ) 
和 在 线 实 验 (online experiment )。 下 面 将 分 别 介绍 这 3 种 实验 方法 的 优 缺 点 。 

1. 离线 实验 

离线 实验 的 方法 一 般 由 如 下 几 个 步骤 构成 : 

(1) 通过 日 志 系 统 获 得 用 户 行为 数据 ， 并 按照 一 定格 式 生成 一 个 标准 的 数据 集 ; 

(2) 将 数据 集 按照 一 定 的 规则 分 成 训练 集 和 测试 集 ; 

(3) 在 训练 集 上 训练 用 户 兴 趣 模型 ， 在 测试 集 上 进行 预测 ; 

(4) 通过 事先 定义 的 离线 指标 评测 算法 在 测试 集 上 的 预测 结 

从 上 面 的 步骤 可 以 看 到 , 推荐 系统 的 离线 实验 都 是 在 数据 集 上 完成 的 , 也 就 是 说 它 不 需要 一 
个 实际 的 系统 来 供 它 实验 , 而 只 要 有 一 个 从 实际 系统 日 志 中 提取 的 数据 集 即 可 。 这 种 实验 方法 的 
好 处 是 不 需要 真实 用 户 参 与 , 可 以 直接 快速 地 计算 出 来 , 从 而 方便 、 快 速 地 测试 大 量 不 同 的 算法 。 













































































人 参见 Sean M. McNee、John Riedl、Joseph A. Konstan 的 论文 “Being accurate is not enough: how accuracy metrics have 


hurt recommender systems” 。 
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它 的 主要 缺点 是 无 法 获得 很 多 商业 上 关注 的 指标 ， 如 点 击 率 、 转 化 率 等 ， 而 找到 和 商业 指标 非常 
相关 的 离线 指标 也 是 很 困难 的 事情 。 表 1-2 简 单 总 结 了 离线 实验 的 优 缺 点 。 


表 1-2 ”离线 实验 的 优 缺 点 











优 点 缺 ”点 
不 需要 有 对 实际 系统 的 控制 权 无 法 计算 商业 上 关心 的 指标 
不 需要 用 户 参 与 实验 离线 实验 的 指标 和 商业 指标 存在 差距 
速度 快 ， 可 以 测试 大 量 算法 





2. 用 户 调查 

注意 , 离线 实验 的 指标 和 实际 的 商业 指标 存在 差距 ， 比 如 预测 准确 率 和 用 户 满意 度 之 间 就 存 
在 很 大 差别 ， 高 预测 准确 率 不 等 于 高 用 户 满意 度 。 因 此 ， 如 果 要 准确 评测 一 个 算法 ,需要 相对 比 
较真 实 的 环境 。 最 好 的 方法 就 是 将 算法 直接 上 线 测试 ， 但 在 对 算法 会 不 会 降低 用 户 满意 度 不 太 
有 把 握 的 情况 下 ， 上 线 测 试 具有 较 高 的 风险 ， 所 以 在 上 线 测试 前 一 般 需 要 做 一 次 称 为 用 户 调查 
的 测试 。 

用 户 调查 需要 有 一 些 真实 用 户 , 让 他 们 在 需要 测试 的 推荐 系统 上 完成 一 些 任 务 。 在 他 们 完成 
任务 时 ,我 们 需要 观察 和 记录 他 们 的 行为 ， 并 让 他 们 回答 一 些 问题 。 最 后 ,我 们 需要 通过 分 析 他 
们 的 行为 和 答案 了 解 测试 系统 的 性 能 。 

用 户 调查 是 推荐 系统 评测 的 一 个 重要 工具 , 很 多 离线 时 没有 办 法 评测 的 与 用 户主 观感 受 有 关 
的 指标 都 可 以 通过 用 户 调查 获得 。 比 如 ， 如 果 我 们 想 知 道 推 荐 结果 是 否 很 令 用 户 惊喜 ， 那 我 们 最 
好 直接 询问 用 户 。 但 是 ， 用 户 调查 也 有 一 些 缺 点 。 首 先 ， 用 户 调查 成 本 很 高 ， 需 要 用 户 花 大 量 
时 间 完 成 一 个 个 任务 ， 并 回答 相关 的 问题 。 有 些 时 候 ， 还 需要 花 钱 雇用 测试 用 户 。 因 此 ， 大 多 
数 情况 下 很 难 进行 大 规模 的 用 户 调查 ， 而 对 于 参加 人 数 较 少 的 用 户 调查 ， 得 出 的 很 多 结论 往往 
没有 统计 意义 。 因 此 , 我 们 在 做 用 户 调查 时 ， 一 方面 要 控制 成 本 ， 另 一 方面 又 要 保证 结果 的 统计 
意义 s 

此 外 ， 测 试用 户 也 不 是 随便 选择 的 。 需 要 尽量 保证 测试 用 户 的 分 布 和 真实 用 户 的 分 布 相同 ， 
比如 男女 各 半 ， 以 及 年 龄 、 活 跃 度 的 分 布 都 和 真实 用 户 分 布 尽量 相同 。 此 外 , 用户 调 查 要 尽量 保 
证 是 双 育 实验 , 不 要 让 实验 人 员 和 用 户 事先 知道 测试 的 目标 ,以 免 用 户 的 回答 和 实验 人 员 的 测试 
受 主 观 成 分 的 影响 。 

用 户 调查 的 优 缺 点 也 很 明显 。 它 的 优点 是 可 以 获得 很 多 体现 用 户主 观感 受 的 指标 ,相对 在 线 
实验 风险 很 低 ， 出 现 错误 后 很 容易 弥补 。 缺 点 是 招募 测试 用 户 代价 较 大 ,很 难 组 织 大 规模 的 测试 
用 户 ， 因 此 会 使 测试 结果 的 统计 意义 不 足 。 此 外 , 在 很 多 时 候 设 计 双 育 实 验 非常 困难 ， 而 且 用 户 
在 测试 环境 下 的 行为 和 真实 环境 下 的 行为 可 能 有 所 不 同 , 因而 在 测试 环境 下 收集 的 测试 指标 可 能 
在 真实 环境 下 无 法 重 现 。 

3. 在 线 实 验 

在 完成 离线 实验 和 必要 的 用 户 调查 后 ， 可 以 将 推荐 系统 上 线 做 AB 测 试 ， 将 它 和 旧 的 算法 进 




























































































图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


22 第 1 章 好 的 推荐 系统 





行 比 较 。 

AB 测 试 是 一 种 很 常用 的 在 线 评 测算 法 的 实验 方法 。 它 通过 一 定 的 规则 将 用 户 随 机 分 成 几 组 ， 
并 对 不 同 组 的 用 户 采 用 不 同 的 算法 , 然后 通过 统计 不 同 组 用 户 的 各 种 不 同 的 评测 指标 比较 不 同 算 
法 ， 比 如 可 以 统计 不 同 组 用 户 的 点 击 率 ， 通 过 点 击 率 比 较 不 同 算法 的 性 能 。 对 AB 测 试 感 兴 趣 的 
读者 可 以 浏览 一 下 网 站 http:/www.abtests.comy/ , 该 网 站 给 出 了 很 多 通过 实际 AB 测 试 提高 网 站 用 户 
满意 度 的 例子 ， 从 中 我 们 可 以 学 习 到 如 何 进行 合理 的 AB 测 试 。 

AB 测 试 的 优点 是 可 以 公平 获得 不 同 算法 实际 在 线 时 的 性 能 指标 ， 包 括 商业 上 关注 的 指标 。 
AB 测 试 的 缺点 主要 是 周期 比较 长 ， 必 须 进 行 长 期 的 实验 才能 得 到 可 靠 的 结果 。 因 此 一 般 不 会 用 
AB 测 试 测试 所 有 的 算法 , 而 只 是 用 它 测试 那些 在 离线 实验 和 用 户 调查 中 表现 很 好 的 算法 。 其 次 ， 
一 个 大 型 网 站 的 AB 测 试 系统 的 设计 也 是 一 项 复杂 的 工程 。 一 个 大 型 网 站 的 架构 分 前 端 和 后 端 ， 
从 前 端 展 示 给 用 户 的 界面 到 最 后 端的 算法 , 中 间 往 往 经 过 了 很 多 层 , 这 些 层 往往 由 不 同 的 团队 控 
制 , 而 且 都 有 可 能 做 AB 测 试 。 如 果 为 不 同 的 层 分 别 设计 AB 测 试 系统 , 那么 不 同 的 AB 测 试 之 间 往 
往 会 互相 干扰 。 比 如 ， 当 我 们 进行 一 个 后 台 推 荐 算法 的 AB 测 试 ， 同 时 网 页 团队 在 做 推荐 页 面 的 
界面 AB 测 试 ， 最 终 的 结果 就 是 你 不 知道 测试 结果 是 自己 算法 的 改变 ， 还 是 推荐 界面 的 改变 造成 
的 。 因 此 ， 切 分 流量 是 AB 测 试 中 的 关键 ， 不同 的 层 以 及 控制 这 些 层 的 团队 需要 从 一 个 统一 的 地 
方 获得 自己 AB 测 试 的 流量 ， 而 不 同 层 之 间 的 流量 应 该 是 正 交 的 。 
图 1-23 是 一 个 简单 的 AB 测 试 系统 。 用 户 进 入 网 站 后 ， 流 量 分 配 系 统 决定 用 户 是 否 需 要 被 进 
行 AB 测 试 ， 如 果 需 要 的 话 ， 流 量 分 配 系统 会 给 用 户 打 上 在 测试 中 属于 什么 分 组 的 标签 。 然 后 用 
户 浏览 网 页 ， 而 用 户 在 浏览 网 页 时 的 行为 都 会 被 通过 日 志 系统 发 回 后 台 的 日 志 数据 库 。 此 时 ， 如 
果 用 户 有 测试 分 组 的 标签 , 那么 该 标签 也 会 被 发 回 后 台数 据 库 。 在 后 台 , 实验 人 员 的 工作 首先 是 
配置 流量 分 配 系统 , 决定 满足 什么 条 件 的 用 户 参 加 什么 样 的 测试 。 其次, 实验 人 员 需 要 统计 日 志 
数据 库 中 的 数据 ， 通 过 评测 系统 生成 不 同 分 组 用 户 的 实验 报告 ， 并 比较 和 评测 实验 结果 。 


本 光一 流量 分 配 系 统 ”一 网 页 一 日 志 系 统 


图 1-23” AB 测试 系统 
一 般 来 说 ， 一 个 新 的 推荐 算法 最 终 上 线 ， 需 要 完成 上 面 所 说 的 3 个 实验 。 
口 首先 ， 需 要 通过 离线 实验 证 明 它 在 很 多 离线 指标 上 优 于 现 有 的 算法 。 
口 然后 ,需要 通过 用 户 调查 确定 它 的 用 户 满意 度 不 低 于 现 有 的 算法 。 
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口 最 后 ， 通 过 在 线 的 AB 测 试 确定 它 在 我 们 关心 的 指标 上 优 于 现 有 的 算法 。 
介绍 完 3 种 主要 的 实验 方法 后 ， 下 一 节 将 开始 介绍 推荐 系统 常用 的 实验 指标 ， 这 些 指标 大 部 
分 都 可 以 通过 本 市 介绍 的 3 种 实验 方法 获得 。 








1.3.2 ”评测 指标 


本 节 将 介绍 各 种 推荐 系统 的 评测 指标 。 这 些 评测 指标 可 用 于 评价 推荐 系统 各 方面 的 性 能 。 这 
些 指标 有 些 可 以 定量 计算 , 有 些 只 能 定性 描述 ， 有些 可 以 通过 离线 实验 计算 , 有 些 需 要 通过 用 户 
调查 获得 ， 还 有 些 只 能 在 线 评测 。 对 于 重要 的 评测 指标 ， 后面 几 音 将 会 详细 讨论 如 何 优化 它们 ， 
本 章 只 给 出 指标 的 定义 。 但 对 于 一 些 次 要 的 指标 , 本 章 在 给 出 定义 的 同时 也 会 顺便 讨论 一 下 应 该 
如 何 优化 。 下 面 几 节 将 详细 讨论 各 个 不 同 的 指标 。 

1. 用 户 满意 度 

用 户 作 为 推荐 系统 的 重要 参与 者 ， 其 满意 度 是 评测 推荐 系统 的 最 重要 指标 。 但 是 ， 用户 满意 
度 没 有 办 法 离线 计算 ， 只 能 通过 用 户 调查 或 者 在 线 实验 获得 。 

用 户 调查 获得 用 户 满意 度 主要 是 通过 调查 问卷 的 形式 。 用 户 对 推荐 系统 的 满意 度 分 为 不 同 的 
层次 。GroupLens 曾 经 做 过 一 个 论文 推荐 系统 的 调查 问卷 ， 该 问卷 的 调查 问题 是 请 问 下 面 哪 句 话 
最 能 描述 你 看 到 推荐 结果 后 的 感受 ? ” 

口 推荐 的 论文 都 是 我 非常 想 看 的 。 

口 推荐 的 论文 很 多 我 都 看 过 了 ， 确 实 是 符合 我 兴趣 的 不 错 论文 。 
口 推荐 的 论文 和 我 的 研究 兴趣 是 相关 的 ， 但 我 并 不 喜欢 。 

口 不 知道 为 什么 会 推荐 这 些 论文 ， 它 们 和 我 的 兴趣 丝毫 没有 关系 。 

由 此 可 以 看 出 , 这 个 调查 问卷 不 是 简单 地 询问 用 户 对 结果 是 否 满意 , 而 是 从 不 同 的 侧面 询问 
用 户 对 结果 的 不 同感 受 。 比 如 ， 如 果 仪 仪 问 用 户 是 否 满意 ， 用 户 可 能 心里 认为 大 体 满意 , 但 是 对 
某 个 方面 还 有 点 不 满 , 因而 可 能 很 难 回答 这 个 问题 。 因 此 在 设计 问卷 时 需要 考虑 到 用 户 各 方面 的 
感受 ， 这 样 用 户 才能 针对 问题 给 出 自己 准确 的 回答 。 

在 在 线 系统 中 ， 用 户 满意 度 主要 通过 一 些 对 用 户 行为 的 统计 得 到 。 比 如 在 电子 商务 网 站 中 ， 
用 户 如 果 购 买 了 推荐 的 商品 ， 就 表示 他 们 在 一 定 程 度 上 满意 。 因 此 , 我 们 可 以 利用 购买 率 度量 用 
户 的 满意 度 。 此 外 ， 有 些 网 站 会 通过 设计 一 些 用 户 反 馈 界面 收集 用 户 满意 度 。 比 如 在 视频 网 站 
Hulu 的 推荐 页 面 ( 如 图 1-24 所 示 ) 和 豆瓣 网 络 电台 (如 图 1-25 所 示 ) 中 ， 都 有 对 推荐 结果 满意 或 
者 不 满意 的 反馈 按钮 ,通过 统计 两 种 按钮 的 单 击 情况 就 可 以 度量 系统 的 用 户 满意 度 。 更 一 般 的 情 
况 下 ， 我 们 可 以 用 点 击 率 、 用 户 停 留 时 间 和 转化 率 等 指标 度量 用 户 的 满意 度 。 



































































































































人 参见 Sean M. McNee 、Nishikant Kapoor 和 Joseph A. Konstan 的 论文 “Don’t Look Stupid: Avoiding Pitfalls when Re- 
p' Pp p 8 


commending Research Papers” 。 


图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


24 第 1 章 好 的 推荐 系统 








SA Na 


S10l9) 
bd 





2 


¥ AR ， 
Starhunter 2300 Brooklyn Rules 
Recommended because you Recommended because you 
have shown interest in Total have shown interest in One 
Recall 2070 Eyed King 


Are you interested? Are you interested? 





xenon IVve seen it yesinon Ive seen it 











截取 自 Hulu， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-24 Hulu 让 用 户 直 接 对 推荐 结果 进行 反馈 ， 以 便 度 量 用 户 满意 度 

















The Cranberries 
< Beneath The Skin: Li... > 2001 





Dying In The Sun 











3:09 可 
Li 

乐 

8 ss 

DD 0 Ph 
人 





截取 自 豆 准 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-25” 豆 办 网 络 电台 通过 红心 和 垃圾 箱 的 反馈 来 度量 用 户 满意 度 





























2. 预测 准确 度 

预测 准确 度 度量 一 个 推荐 系统 或 者 推荐 算法 预测 用 户 行为 的 能 力 。 这 个 指标 是 最 重要 的 推荐 
系统 离线 评测 指标 , 从 推荐 系统 诞生 的 那 一 天 起 , 几乎 99% 与 推荐 相关 的 论文 都 在 讨论 这 个 指标 。 
这 主要 是 因为 该 指标 可 以 通过 离线 实验 计算 ， 方 便 了 很 多 学 术 界 的 研究 人 员 研 究 推荐 算法 。 

在 计算 该 指标 时 需要 有 一 个 离线 的 数据 集 , 该 数据 集 包 含 用 户 的 历史 行为 记录 。 然 后 , 将 该 
数据 集 通 过 时 间 分 成 训练 集 和 测试 集 。 最 后 , 通过 在 训练 集 上 建立 用 户 的 行为 和 兴趣 模型 预测 用 
户 在 测试 集 上 的 行为 ， 并 计算 预测 行为 和 测试 集 上 实际 行为 的 重合 度 作为 预测 准确 度 。 

由 于 离线 的 推荐 算法 有 不 同 的 研究 方向 , 因此 下 面 将 针对 不 同 的 研究 方向 介绍 它们 的 预测 准 
确 度 指标 。 
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@ 评分 预测 | 
很 多 提供 推荐 服务 的 网 站 都 有 一 个 让 用 户 给 物品 打分 的 功能 ( 如 图 1-26 所 示 )。 那 么 ， 如 果 

知道 了 用 户 对 物品 的 历史 评分 ,就 可 以 从 中 习 得 用 户 的 兴趣 模型 ,并 预测 该 用 户 在 将 来 看 到 一 个 

他 没有 评 过 分 的 物品 时 ， 会 给 这 个 物品 评 多 少 分 。 预 测 用 户 对 物品 评分 的 行为 称 为 评分 预测 。 


充 磷 充 充 而。 | 二 


Not Interested 


Your hiatch: Log in to see yours 65 
ET 
说 印 站 


分 别 截取 自 Netflix、 囊 准 、YouTube、Jinni、Digg 和 Pandora 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 1-26 不 同 网 站 收集 用 户 评分 的 界面 
评分 预测 的 预测 准确 度 一 般 通 过 均 方 根 误 差 ( RMSE ) 和 平均 绝对 误差 (MAE ) 计算 。 对 于 
测试 集中 的 一 个 用 户 u 和 物品 i， 令 jj 是 用 户 u 对 物品 的 实际 评分 ， 而 是 推荐 算法 给 出 的 预测 评 
分 ， 那么 RMSE 的 定义 为 : 





在 读 | | 这 过 | 评价 


























py 
> u jer (7 ui —F,) 





RMSE = 
网 
MAE 和 采用 绝对 值 计 算 预 测 误差 ， 它 的 定义 为 : 
MAE 二 > u,ieT Fi = 











假设 我 们 用 一 个 列表 records 存 放 用 户 评分 数据 , 令 recorgds[i] = [u,i,rui,pui], 其 
中 rui 是 用 户 u 对 物品 i 的 实际 评分 ，pui 是 算法 预测 出 来 的 用 户 u 对 物品 i 的 评分 ， 那 么 下 面 的 代 
码 分 别 实现 了 RMSE 和 MAE 的 计算 过 程 。 


def RMSE (records): 
return math.sqgrt(\ 
sum([(rui-pui)*(rui-pui) for u,i,rui,pui in records])\ 
/ float(lenl(records))) 








def MAE (records): 
return suml([abs(rui-pui) for u,i,rui,pui in records])\ 
/ floatl(lenl(records)) 


关于 RMSE 和 MAE 这 两 个 指标 的 优 缺 点 ，Netflix 认 为 RMSE 加 大 了 对 预测 不 准 的 用 户 物 品评 
分 的 惩罚 (平方 项 的 惩罚 )， 因 而 对 系统 的 评测 更 加 苛刻 。 研 究 表明 ， 如 果 评 分 系统 是 基于 整数 
建立 的 〈 即 用 户 给 的 评分 都 是 整数 )， 那 么 对 预测 结果 取 整 会 降低 MAE 的 误差 "。 














QD Gibor Takics 、Istvin Pilhszy 和 Bottyin Németb 的 论文 “Major components of the gravity recommendation system”。 
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@ TopN 推 荐 

网 站 在 提供 推荐 服务 时 ， 一 般 是 给 用 户 一 个 个 性 化 的 推荐 列表 ， 这 种 推荐 叫做 TopN 推 荐 。 
TopN 推 荐 的 预测 准确 率 一 般 通 过 准确 率 ( precision ) /召回 率 ( recall ) 度量 。 

令 R(w) 是 根据 用 户 在 训练 集 上 的 行为 给 用 户 作 出 的 推荐 列表 ， 而 7T(w) 是 用 户 在 测试 集 上 的 行 
为 列表 。 那 么 ， 推 荐 结果 的 召回 率 定义 为 : 















































wv [RW) NN 7(o]| 
2 eolrGo| 


Recall = 2 





推荐 结果 的 准确 率 定义 为 : 
> ueU [RW) NN 7(o]| 
> ueU [RG@)| 
下 面 的 Python 代 码 同时 计算 出 了 一 个 推荐 算法 的 准确 率 和 召回 率 : 
def PrecisionRecall (test, N): 


hint 过 0 
入 入 二 者 


Precision = 








n_precision = 0 
for user, items in test.items(): 
rank = Recommend (user, N) 
hit += len(rank & items) 
n_recall += len(items) 
n_precision += N 
return [hit 7/ (1.0 * n recall}; hit YY (L100 * n preecision)] 


有 的 时 候 ， 为 了 全 面 评测 TopN 推 荐 的 准确 率 和 召回 率 ， 一 般 会 选取 不 同 的 推荐 列表 长 度 N， 
计算 出 一 组 准确 率 /召回 率 ， 然 后 画 出 准确 率 /召回 率 曲线 (precision/recall curve )。 

@ 关于 评分 预测 和 TopN 推 荐 的 讨论 

评分 预测 一 直 是 推荐 系统 研究 的 热点 , 绝 大 多 数 推荐 系统 的 研究 都 是 基于 用 户 评分 数据 的 评 
分 预测 。 这 主要 是 因为 ， 一 方面 推荐 系统 的 早期 研究 组 GroupLens 的 研究 主要 就 是 基于 电影 评分 
数据 MovieLens 进 行 的 ， 其 次 ，Netflix 大 赛 也 主要 面向 评分 预测 问题 。 因 而 ,很 多 研究 人 员 都 将 
人 研究 精力 集中 在 优化 评分 预测 的 RMSE 上 。 

对 此 ， 亚 马 偿 前 科学 家 Greg Linden 有 不 同 的 看 法 。2009 年 , 他 在 Communications of the ACM 
网 站 发 表 了 一 篇 文章 "， 指 出 电影 推荐 的 目的 是 找到 用 户 最 有 可 能 感 兴趣 的 电影 ， 而 不 是 预测 用 
户 看 了 电影 后 会 给 电影 什么 样 的 评分 。 因 此 ，TopN 推 荐 更 符合 实际 的 应 用 需求 。 也 许 有 一 部 电 
影 用 户 看 了 之 后 会 给 很 高 的 分 数 , 但 用 户 看 的 可 能 性 非常 小 。 因此 , 预测 用 户 是 否 会 看 一 部 电影 ， 
应 该 比 预 测 用 户 看 了 电影 后 会 给 它 什 么 评分 更 加 重要 。 因 此 ， 本 书 主 要 也 是 讨论 TopN 推 荐 。 

























































































中 “What is a Good Recommendation Algorithm? ”，, 参见 http://cacm.acm.org/blogs/blog-cacm/22925-what-is-a-good- 


recommendation -algorithmy/fulltext。 
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3. 覆盖 率 

覆盖 率 ( coverage ) 描述 一 个 推荐 系统 对 物品 长 尾 的 发 掘 能 力 。 和 覆盖 率 有 不 同 的 定义 方法 ， 
最 简单 的 定义 为 推荐 系统 能 够 推荐 出 来 的 物品 占 总 物品 集合 的 比例 。 假 设 系统 的 用 户 集合 为 以， 
推荐 系统 给 每 个 用 户 推 荐 一 个 长 度 为 N 的 物品 列表 R(u)。 那 么 推荐 系统 的 覆盖 率 可 以 通过 下 面 的 
公式 计算 : 





Coverage = Uae 
4 

从 上 面 的 定义 可 以 看 到 , 覆盖 率 是 一 个 内 容 提供 商会 关心 的 指标 。 以 图 书 推荐 为 例 ， 出 版 社 
可 能 会 很 关心 他 们 的 书 有 没有 被 推荐 给 用 户 。 和 覆盖 率 为 100% 的 推荐 系统 可 以 将 每 个 物品 都 推荐 
给 至 少 一 个 用 户 。 此 外 ,从 上 面 的 定义 也 可 以 看 到 ,热门 排行 榜 的 推荐 覆盖 率 是 很 低 的 ， 它 只 会 
推荐 那些 热门 的 物品 , 这 些 物品 在 总 物品 中 占 的 比例 很 小 。 一 个 好 的 推荐 系统 不 仅 需要 有 比较 高 
的 用 户 满意 度 ， 也 要 有 较 高 的 覆盖 率 。 

但 是 上 面 的 定义 过 于 粗略 。 和 覆盖 率 为 100% 的 系统 可 以 有 无 数 的 物品 流行 度 分 布 。 为 了 更 细 
致 地 描述 推荐 系统 发 气 长 尾 的 能 力 , 需要 统计 推荐 列表 中 不 同 物品 出 现 次 数 的 分 布 。 如 果 所 有 的 
物品 都 出 现在 推荐 列表 中 ， 且 出 现 的 次 数 差 不 多 ， 那 么 推荐 系统 发 据 长 尾 的 能 力 就 很 好 。 因 此 ， 
可 以 通过 研究 物品 在 推荐 列表 中 出 现 次 数 的 分 布 描述 推荐 系统 挖掘 长 尾 的 能 力 。 如果 这 个 分 布 比 
较 平 ， 那 么 说 明 推荐 系统 的 覆盖 率 较 高 ， 而 如 果 这 个 分 布 较 陡峭 ， 说 明 推 荐 系统 的 覆盖 率 较 低 。 
在 信息 论 和 经 济 学 中 有 两 个 著名 的 指标 可 以 用 来 定义 覆盖 率 。 第 一 个 是 信息 信 : 


H=-2p(i)log pO) 
tl 
这 里 p() 是 物品 的 流行 度 除 以 所 有 物品 流行 度 之 和 。 
第 二 个 指标 是 基尼 系数 (Gini Index ): ” 
1 志 | 
G=— 2,(2j-n-l)pl,) 
n 一 1 守 


这 里 , i 是 按照 物品 流行 度 pO 从 小 到 大 排序 的 物品 列表 中 第 /个 物品 。 下 面 的 代码 可 以 用 来 计 
算 给 定 物品 流行 度 分 布 后 的 基尼 系数 : 


def GiniIndex(p): 









































党 入 

n = lenl(p) 

Ss0 

for item, weight in sorted(p.items(), key=itemgetter(1)): 


G+= (2*j- no- 1) * weight 
return G / float(n - 1) 





人 参见 Guy Shani 和 Asela Gunawardana 的 “ Evaluating Recommendation Systems”。 
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基尼 系数 的 计算 原理 


首先 ， 我 们 将 物品 按照 热门 程度 从 低 到 高 排列 ， 那 么 右 图 
中 的 黑色 曲线 表示 最 不 热门 的 x% 物 品 的 总 流行 度 占 系统 的 比例 
y%。 这 条 曲线 肯定 是 在 y=x 曲 线 之 下 的 ， 而 且 和 y=x 曲 线 相交 在 
(0,0) 和 (1,1)。 

令 SA 是 4 的 面积 ,SB 是 8 的 面积 , 那么 基尼 系数 的 形象 定义 
就 是 SA / (SA + SB)， 从 定义 可 知 ， 基 尼 系 数 属于 区 间 [0,1]。 

如 果 系 统 的 流行 度 很 平均 ， 那 么 SA 就 会 很 小 ， 从 而 基尼 系 
数 很 小 。 如 果 系 统 物 品 流行 度 分配 很 不 均匀 ,那么 SA 就 会 很 大 ， 
从 而 基尼 系数 也 会 很 大 。 100% 
























































社会 学 领域 有 一 个 著名 的 马 太 效应 ， 即 所 谓 强 者 更 强 ， 弱者 更 弱 的 效应 。 如 果 一 个 系统 会 增 
大 热门 物品 和 非 热 门 物品 的 流行 度 差距 ， 让 热门 的 物品 更 加 热门 , 不 热门 的 物品 更 加 不 热门 , 那 
么 这 个 系统 就 有 马 太 效应 。 比 如 , 首页 的 热门 排行 榜 就 有 马 太 效 应 。 进 入 排行 榜 的 都 是 热门 的 物 
品 , 但 它们 因为 被 放 在 首页 的 排行 榜 展 示 有 了 更 多 的 曝光 机 会 ， 所 以 会 更 加 热门 。 相 反 , 没有 进 
入 排行 榜 的 物品 得 不 到 展示 ， 就 会 更 不 热门 。 搜 索引 擎 的 PageRank 算 法 也 具有 一 定 的 马 太 效 应 ， 
如 果 一 个 网 页 的 某 个 热门 关键 词 排名 很 高 , 并 因此 被 展示 在 搜索 结果 的 第 一 条 , 那么 它 就 会 获得 
更 多 的 关注 ， 从 而 获得 更 多 的 外 链 ，PageRank 排 名 也 越 高 。 

那么 , 推荐 系统 是 否 有 马 太 效 应 呢 ? 推荐 系统 的 初衷 是 希望 消除 马 太 效应 , 使 得 各 种 物品 都 
能 被 展示 给 对 它们 感 兴 趣 的 某 一 类 人 群 。 但 是 , 很 多 研究 表明 现在 主流 的 推荐 算法 ( 比如 协同 过 
滤 算 法 ) 是 具有 马 太 效应 的 。 评 测 推荐 系统 是 否 具有 马 太 效应 的 简单 办 法 就 是 使 用 基尼 系数 。 如 
果 G1 是 从 初始 用 户 行为 中 计算 出 的 物品 流行 度 的 基尼 系数 ，G2 是 从 推荐 列表 中 计算 出 的 物品 流 
行 度 的 基尼 系数 ， 那 么 如 果 G2 > G1， 就 说 明 推荐 算法 具有 马 太 效应 。 

4. 多 样 性 

用 户 的 兴趣 是 广泛 的 ， 在 一 个 视频 网 站 中 ， 用 户 可 能 既 喜 欢 看 《 猫 和 老鼠 》 一 类 的 动画 片 ， 
也 喜欢 看 成 龙 的 动作 片 。 那么, 为 了 满足 用 户 广 泛 的 兴趣 ,推荐 列表 需要 能 够 覆盖 用 户 不 同 的 兴 
趣 领 域 ， 即 推荐 结果 需要 具有 多 样 性 。 多 样 性 推荐 列表 的 好 处 用 一 句 俗话 表述 就 是 “不 在 一 棵 树 
上 上吊 死 ”。 尽 管用 户 的 兴趣 在 较 长 的 时 间 跨 度 中 是 一 样 的 , 但 具体 到 用 户 访问 推荐 系统 的 某 一 刻 ， 
其 兴趣 往往 是 单一 的 , 那么 如 果 推 荐 列表 只 能 覆盖 用 户 的 一 个 兴趣 点 ， 而 这 个 兴趣 点 不 是 用 户 这 
个 时 刻 的 兴趣 点 ,推荐 列表 就 不 会 让 用 户 满 意 。 反 之 ， 如 果 推 荐 列表 比较 多 样 ， 宪 盖 了 用 户 绝 大 
多 数 的 兴趣 点 , 那么 就 会 增加 用 户 找到 感 兴趣 物品 的 概率 。 因 此 给 用 户 的 推荐 列表 也 需要 满足 用 
户 广泛 的 兴趣 ， 即 具有 多 样 性 。 

多 样 性 描述 了 推荐 列表 中 物品 两 两 之 间 的 不 相似 性 。 因 此 ， 多 样 性 和 相似 性 是 对 应 的 。 假 设 
s(i, 站 e [0 定义 了 物品 ;和 和 /之 间 的 相似 度 ， 那 么 用 户 z 的 推荐 列表 R(O 的 多 样 性 定义 如 下 : 


> i jeRG) zs (ls 7) 
5RGColdRCo|-D 
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而 推荐 系统 的 整体 多 样 性 可 以 定义 为 所 有 用 户 推荐 列表 多 样 性 的 平均 值 : 


Diversity = 站 2 Diversity(R(u)) 

从 上 面 的 定义 可 以 看 到 , 不 同 的 物品 相似 度 度量 函数 s@, 力 可 以 定义 不 同 的 多 样 性 。 如 果 用 内 
容 相 似 度 描述 物品 间 的 相似 度 , 我 们 就 可 以 得 到 内 容 多 样 性 函数 , 如 果 用 协同 过 滤 的 相似 度 函 数 
描述 物品 间 的 相似 度 ， 就 可 以 得 到 协同 过 滤 的 多 样 性 函数 。 

关于 推荐 系统 多 样 性 最 好 达到 什么 程度 , 可 以 通过 一 个 简单 的 例子 说 明 。 假 设 用 户 喜欢 动作 
片 和 动画 片 ,， 且 用 户 80% 的 时 间 在 看 动作 片 ，20% 的 时 间 在 看 动画 片 。 那 么 , 可 以 提供 4 种 不 同 的 
推荐 列表 : A 列表 中 有 10 部 动作 片 ， 没有 动画 片 ;，B 列 表 中 有 10 部 动画 片 ， 没 有 动作 片 ; C 列 表 中 
有 8 部 动作 片 和 2 部 动画 片 ; D 列 表 有 5 部 动作 片 和 5 部 动画 片 。 在 这 个 例子 中 ， 一 般 认 为 C 列 表 是 
最 好 的 ， 因 为 它 具 有 一 定 的 多 样 性 ， 但 又 考虑 到 了 用 户 的 主要 兴趣 。A 满 足 了 用 户 的 主要 兴趣 ， 
但 缺少 多 样 性 ，D 列 表 过 于 多 样 ， 没 有 考虑 到 用 户 的 主要 兴趣 。B 列 表 即 没有 考虑 用 户 的 主要 兴 
趣 ， 也 没有 多 样 性 ， 因 此 是 最 差 的 。 

5. 新 颖 性 

新 疾 的 推荐 是 指 给 用 户 推 荐 那些 他 们 以 前 没有 听 说 过 的 物品 ,在 一 个 网 站 中 实现 新 颖 性 的 最 
简单 办 法 是 , 把 那些 用 户 之 前 在 网 站 中 对 其 有 过 行为 的 物品 从 推荐 列表 中 过 滤 掉 。 比 如 在 一 个 视 
频 网 站 中 ， 新 颖 的 推荐 不 应 该 给 用 户 推 荐 那些 他 们 已 经 看 过 、 打 过 分 或 者 浏览 过 的 视频 。 但 是 ， 
有 些 视 频 可 能 是 用 户 在 别 的 网 站 看 过 , 或 者 是 在 电视 上 看 过 , 因此 仅仅 过 滤 掉 本 网 站 中 用 户 有 过 
行为 的 物品 还 不 能 完全 实现 新 颖 性 。 

O’scar Celma 在 博士 论文 “Music Recommendation and Discovery in the Long Tail” "中 研究 了 
新 颖 度 的 评测 。 评 测 新 颖 度 的 最 简单 方法 是 利用 推荐 结果 的 平均 流行 度 , 因为 越 不 热门 的 物品 越 
可 能 让 用 户 觉得 新 颖 。 因 此 ， 如 果 推 荐 结果 中 物品 的 平均 热门 程度 较 低 ,那么 推荐 结果 就 可 能 
比较 高 的 新 颖 性 。 

但 是 ,用 推荐 结果 的 平均 流行 度 度量 新 颖 性 比较 粗略 , 因为 不 同 用 户 不 知道 的 东西 是 不 同 的 。 
因此 ， 要 准确 地 统计 新 新 性 需要 做 用 户 调查 。 

最 近 几 年 关于 多 样 性 和 新 颖 性 的 研究 越 来 越 受 到 推荐 系统 研究 人 员 的 关注 。ACM 的 推荐 系 
统 会 议 在 2011 年 有 一 个 专门 的 研讨 会 讨论 推荐 的 多 样 性 和 新 颖 性 。” 该 研讨 会 的 组 织 者 认为 ， 通 
过 牺牲 精度 来 提高 多 样 性 和 新 颖 性 是 很 容易 的 , 而 困难 的 是 如 何在 不 牺牲 精度 的 情况 下 提高 多 样 
性 和 新 络 性 。 关 心 这 两 个 指标 的 读者 可 以 关注 一 下 这 个 研讨 会 最 终 发 表 的 论文 。 

6. 惊喜 度 

惊喜 度 (serendipity ) 是 最 近 这 几 年 推荐 系统 领域 最 热门 的 话题 。 但 什么 是 惊喜 度 ， 人 惊喜 度 
与 新 颖 性 有 什么 区 别 是 首先 需要 弄 清楚 的 问题 。 注 意 , 这 里 讨论 的 是 惊喜 度 和 新 颖 度 作为 推荐 指 
























































































































































人 参见 “Music Recommendation and Discovery in the Long Tail”， 地 址 为 http://mtg.upf.edu/static/media/PhD_ocelma.pdf。 
@ 参见 “International Workshop on Novelty and Diversity in Recommender Systems”， 地 址 为 http:Viriiuam.es/divers2011/。 
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标 在 意义 上 的 区 别 ， 而 不 是 这 两 个 词 在 中 文 里 的 含义 区 别 ( 因为 这 两 个 词 是 英文 词 翻译 过 来 的 ， 
所 以 它们 在 中 文 里 的 含义 区 别 和 英文 词 的 含义 区 别 并 不 相同 )， 所 以 我 们 首先 要 握 弃 大 脑 中 关于 
这 两 个 词 在 中 文中 的 基本 含义 。 

可 以 举 一 个 例子 说 明 这 两 种 指标 的 区 别 。 假设 一 名 用 户 喜 欢 周星驰 的 电影 , 然后 我 们 给 他 推 
荐 了 一 部 叫做 《 临 歧 》 的 电影 (该 电影 是 1983 年 由 刘德华 、 周 星 驰 、 梁 朝 伟 合作 演出 的 ,很 少 有 
人 知道 这 部 有 周星驰 出 演 的 电影 ), 而 该 用 户 不 知道 这 部 电影 , 那么 可 以 说 这 个 推荐 具有 新 颖 性 。 
但 是 ， 这 个 推荐 并 没有 惊喜 度 ， 因 为 该 用 户 一 旦 了 解 了 这 个 电影 的 演员 ， 就 不 会 觉得 特别 奇怪 。 
但 如 果 我 们 给 用 户 推荐 张艺谋 导演 的 《 红 高 粱 》 假设 这 和 名 用 户 没 有 看 过 这 部 电影 ， 那 么 他 看 完 
这 部 电影 后 可 能 会 觉得 很 奇怪 , 因为 这 部 电影 和 他 的 兴趣 一 点 关系 也 没有 , 但 如 果 用 户 看 完 电 影 
百 觉 得 这 部 电影 很 不 错 ， 那 么 就 可 以 说 这 个 推荐 是 让 用 户 惊喜 的 。 这 个 例子 的 原始 版 本 来 自 于 
Guy Shani 的 论文 "， 他 的 基本 意思 就 是 ， 如 果 推 荐 结果 和 用 户 的 历史 兴趣 不 相似 ， 但 却 让 用 户 党 
得 满意 , 那么 就 可 以 说 推荐 结果 的 惊喜 度 很 高 , 而 推荐 的 新 颖 性 仅仅 取决 于 用 户 是 否 听 说 过 这 个 
推荐 结果 。 

目前 并 没有 什么 公认 的 惊喜 度 指 标定 义 方式 ， 这 里 只 给 出 一 种 定性 的 度量 方式 。 上 面 提 到 ， 
令 用 户 惊喜 的 推荐 结果 是 和 用 户 历 史上 喜欢 的 物品 不 相似 , 但 用 户 却 觉 得 满意 的 推荐 。 那么 , 定 
义 惊喜 度 需要 首先 定义 推荐 结果 和 用 户 历史 上 喜欢 的 物品 的 相似 度 , 其 次 需要 定义 用 户 对 推荐 结 
果 的 满意 度 。 前面 也 曾 提 到 ， 用 户 满意 度 只 能 通过 问卷 调查 或 者 在 线 实验 获得 ,而 推荐 结果 和 用 
户 历 史上 喜欢 的 物品 相似 度 一 般 可 以 用 内 容 相似 度 定义 。 也 就 是 说 , 如 果 获 得 了 一 个 用 户 观 看 电 
影 的 历史 ,得 到 这 些 电 影 的 演员 和 导演 集合 4， 然 后 给 用 户 推荐 一 个 不 属于 集合 4 的 导演 和 演员 
创作 的 电影 ， 而 用 户 表 示 非 常 满意 ,这样 就 实现 了 一 个 惊喜 度 很 高 的 推荐 。 因 此 提高 推荐 惊喜 度 
需要 提高 推荐 结果 的 用 户 满意 度 ， 同 时 降低 推荐 结果 和 用 户 历史 兴趣 的 相似 度 。 

惊喜 度 的 问题 最 近 几 年 获得 了 学 术 界 的 一 定 关注 , 但 这 方面 的 工作 还 不 是 很 成 熟 。 相 关 工 作 
可 以 参考 Yuan Cao Zhang 等 的 论文 ?和 Tomoko Murakami 等 的 论文 ?， 本 书 就 不 对 该 问题 进一步 展 
开 讨 论 了 。 

7. 信任 度 

如 果 你 有 两 个 朋友 , 一 个 人 你 很 信任 , 一 个 人 经 常 满嘴 跑 火 车 , 那么 如 果 你 信任 的 朋友 推荐 
你 去 某 个 地 方 旅游 , 你 很 有 可 能 听从 他 的 推荐 , 但 如 果 是 那 位 满嘴 跑 火 车 的 朋友 推荐 你 去 同样 的 
地 方 旅游 ， 你 很 有 可 能 不 去 。 这 两 个 人 可 以 看 做 两 个 推荐 系统 ,尽管 他 们 的 推荐 结果 相同 ,但 用 
户 却 可 能 产生 不 同 的 反应 ， 这 就 是 因为 用 户 对 他 们 有 不 同 的 信任 度 。 

对 于 基于 机 器 学 习 的 自动 推荐 系统 ， 同 样 存 在 信任 度 (trust ) 的 问题 ， 如 果 用 户 信任 推荐 系 
统 , 那 就 会 增加 用 户 和 推荐 系统 的 交互 。 特 别 是 在 电子 商务 推荐 系统 中 , 让 用 户 对 推荐 结果 产生 







































































































































































GD 参见 Guy Shani 和 Asela Gunawardana 的 “Evaluating Recommendation Systems”。 

@) 参见 Yuan Cao Zhang、Diarmuid O Séaghdha、Daniele Quercia 和 Tamas Jambor 的 “Auralist: introducing serendipity into 
music recommendation.” 。 

@ 参见 Tomoko Murakami、Koichiro. Mori 和 Ryohei Orihara 的 “ Metrics for evaluating the serendipity of recommendation 


lists” 
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信任 是 非常 重要 的 。 同 样 的 推荐 结果 , 以 让 用 户 信任 的 方式 推荐 给 用 户 就 更 能 让 用 户 产 生 购 买 欲 
而 以 类 似 广 告 形 式 的 方法 推荐 给 用 户 就 可 能 很 难 让 用 户 产 生 购买 的 意愿 。 

度量 推荐 系统 的 信任 度 只 能 通过 问卷 调查 的 方式 ， 询 问 用 户 是 否 信任 推荐 系统 的 推荐 结果 。 
因为 本 书后 面 的 章节 不 太 涉 及 如 何 提高 推荐 系统 信任 度 的 问题 , 因此 这 里 简单 介绍 一 下 如 何 提高 
用 户 对 推荐 结果 的 信任 度 ， 以 及 关于 信任 度 的 一 些 研 究 现状 。 

提高 推荐 系统 的 信任 度 主要 有 两 种 方法 。 首 先 需要 增加 推荐 系统 的 透明 度 (transparency )"， 
而 增加 推荐 系统 透明 度 的 主要 办 法 是 提供 推荐 解释 。 只 有 让 用 户 了 解 推荐 系统 的 运行 机 制 , 让 用 
户 认同 推荐 系统 的 运行 机 制 ， 才 会 提高 用 户 对 推荐 系统 的 信任 度 。 其 次 是 考虑 用 户 的 社交 网 络 
言 息 ， 利 用 用 户 的 好 友信 息 给 用 户 做 推荐 并 且 用 好 友 进 行 推 荐 解释 。 这 是 因为 用 户 对 他 们 的 
好 友 一 般 都 比较 信任 , 因此 如 果 推 荐 的 商品 是 好 友 购 买 过 的 , 那么 他 们 对 推荐 结果 就 会 相对 比较 
信任 。 

关于 推荐 系统 信任 度 的 研究 主要 集中 在 评论 网 站 Epinion 的 推荐 系统 上 。 这 是 因为 Epinion 创 | 
建 了 一 套用 户 之 间 的 信任 系统 来 建立 用 户 之 间 的 信任 关系 ， 帮 助 用 户 判 断 是 否 信 任 当 前 用 户 对 
某 一 个 商品 的 评论 。 如 图 1-27 所 示 ， 当 用 户 在 Epinion 上 浏览 一 个 商品 时 ， 他 会 通过 用 户 评论 判 
断 是 否 购买 该 商品 。Epinion 为 了 防止 垃圾 评论 或 者 广告 评论 影响 用 户 的 决策 ， 在 每 条 用 户 评论 
的 右 侧 都 显示 了 评论 作者 的 信息 , 并 且 让 用 户 判 断 是 信任 该 评论 人 还 是 将 他 加 入 黑 名 单 。 如 果 网 
站 具有 Epinion 的 用 户 信任 系统 ， 那么 可 以 在 给 用 户 做 推荐 时 , 尽量 推荐 他 信任 的 其 他 用 户 评论 过 
的 物品 。 
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截取 自 Epinion 网 站 ， 图 中 相关 内 容 的 著作 权 
归 原 著作 权 人 所 有 


图 1-27 ”Epinion 的 信任 系统 界面 


























人 参见 Henriette Cramer、Vanessa Evers 、Satyan Ramlal 、Maarten van Someren、Lloyd Rutledge 、Natalia Stash 、Lora 





Aroyo 和 Bob Wielinga 的 “ The effects of transparency on trust in and acceptance of a content-based art recommender” 。 
人 @) 参见 Paolo Massa 和 Paolo Avesani 的 “Trust-aware recommender systems”。 
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8. 实时 性 

在 很 多 网 站 中 ， 因 为 物品 ( 新闻、 微 博 等 ) 具有 很 强 的 时 效 性 ， 所 以 需要 在 物品 还 具有 时 效 
性 时 就 将 它们 推荐 给 用 户 。 比 如 , 给 用 户 推荐 昨天 的 新 闻 显 然 不 如 给 用 户 推荐 今天 的 新 闻 。 因 此 ， 
在 这 些 网 站 中 ， 推 荐 系统 的 实时 性 就 显得 至 关 重 要 。 

推荐 系统 的 实时 性 包括 两 个 方面 。 首 先 , 推荐 系统 需要 实时 地 更 新 推荐 列表 来 满足 用 户 新 的 
行为 变化 。 比 如 ， 当 一 个 用 户 购买 了 iPhone， 如 果 推 荐 系统 能 够 立即 给 他 推荐 相关 配件 ,那么 肯 
定 比 第 二 天 再 给 用 户 推 荐 相关 配件 更 有 价值 。 很 多 推荐 系统 都 会 在 离线 状态 每 天 计算 一 次 用 户 推 
荐 列表 ， 然 后 于 在 线 期 间 将 推荐 列表 展示 给 用 户 。 这 种 设计 显然 是 无 法 满足 实时 性 的 。 与 用 户 行 
为 相应 的 实时 性 , 可 以 通过 推荐 列表 的 变化 速率 来 评测 。 如 果 推 荐 列表 在 用 户 有 行为 后 变化 不 大 ， 
或 者 没有 变化 ， 说 明 推 荐 系统 的 实时 性 不 高 。 

实时 性 的 第 二 个 方面 是 推荐 系统 需要 能 够 将 新 加 入 系统 的 物品 推荐 给 用 户 。 这 主要 考验 了 推 
荐 系统 处 理 物品 冷 启 动 的 能 力 。 关 于 如 何 将 新 加 入 系统 的 物品 推荐 给 用 户 , 本 书 将 在 后 面 的 章节 
进行 讨论 , 而 对 于 新 物品 推荐 能 力 , 我 们 可 以 利用 用 户 推荐 列表 中 有 多 大 比例 的 物品 是 当天 新 加 
的 来 评测 。 

9. 健壮 性 

任何 一 个 能 带 来 利益 的 算法 系统 都 会 被 人 攻击 , 这 方面 最 典型 的 例子 就 是 搜索 引擎 。 搜 索引 
擎 的 作 癣 和 反 作 弊 斗争 异常 激烈 ， 这 是 因为 如 果 能 让 自己 的 商品 成 为 热门 搜索 词 的 第 一 个 搜索 
果 ， 会 带 来 极 大 的 商业 利益 。 推 荐 系统 目前 也 遇 到 了 同样 的 作 浆 问题 ， 而 健壮 性 〈 即 robust 鲁 棒 
性 ) 指标 衡量 了 一 个 推荐 系统 抗击 作 次 的 能 力 。 

2011 年 的 推荐 系统 大 会 专门 有 一 个 关于 推荐 系统 健壮 性 的 教程 ”。 作者 总 结 了 很 多 作 次 方法 ， 
其 中 最 著名 的 就 是 行为 注入 攻击 ( profile injection attack )。 众 所 周知 ， 绝 大 部 分 推荐 系统 都 是 通 
过 分 析 用 户 的 行为 实现 推荐 算法 的 。 比 如 ,亚马逊 有 一 种 推荐 叫做 “购买 商品 A 的 用 户 也 经 常 购 
买 的 其 他 商品 ”。 它 的 主要 计算 方法 是 统计 购买 商品 A 的 用 户 购买 其 他 商品 的 次 数 。 那 么 ， 我 们 
可 以 很 简单 地 攻击 这 个 算法 , 让 自己 的 商品 在 这 个 推荐 列表 中 获得 比较 高 的 排名 ， 比 如 可 以 注册 
很 多 账号 ， 用 这 些 账号 同时 购买 A 和 自己 的 商品 。 还 有 一 种 攻击 主要 针对 评分 系统 ， 比 如 豆 激 的 
电影 评分 。 这 种 攻击 很 简单 ， 就 是 雇用 一 批 人 给 自己 的 商品 非常 高 的 评分 ， 而 评分 行为 是 推荐 系 
统 依赖 的 重要 用 户 行为 。 

算法 健壮 性 的 评测 主要 利用 模拟 攻击 。 首 先 , 给 定 一 个 数据 集 和 一 个 算法 ,可 以 用 这 个 算法 
给 这 个 数据 集中 的 用 户 生 成 推荐 列表 。 然 后 , 用 常用 的 攻击 方法 向 数据 集中 注入 噪声 数据 ， 然 后 
利用 算法 在 注入 噪声 后 的 数据 集 上 再 次 给 用 户 生成 推荐 列表 。 最 后 , 通过 比较 攻击 前 后 推荐 列表 
的 相似 度 评测 算法 的 健壮 性 。 如 果 攻 击 后 的 推荐 列表 相对 于 攻击 前 没有 发 生 大 的 变化 , 就 说 明 算 
法 比较 健壮 。 

在 实际 系统 中 ， 提 高 系统 的 健壮 性 ， 除 了 选择 健壮 性 高 的 算法 ， 还 有 以 下 方法 。 


































































































































































































GD 参见 Neil Hurley 的 “ Tutorial on Robustness of Recommender System”( ACM RecSys 2011 )。 
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口 设计 推荐 系统 时 尽量 使 用 代价 比较 高 的 用 户 行为 。 比 如 ， 如 果 有 用 户 购 买 行为 和 用 户 浏 
览 行为 ,那么 主要 应 该 使 用 用 户 购买 行为 ， 因 为 购买 需要 付费 ， 所 以 攻击 购买 行为 的 代 
价 远 远大 于 攻击 浏览 行为 。 
口 在 使 用 数据 前 ， 进 行 攻击 检测 ， 从 而 对 数据 进行 清理 。 
10. 商业 目标 
很 多 时 候 , 网 站 评测 推荐 系统 更 加 注重 网 站 的 商业 目标 是 否 达 成 , 而 商业 目标 和 网 站 的 僵 利 
模式 是 息息相关 的 。 一 般 来 说 , 最 本 质 的 商业 目标 就 是 平均 一 个 用 户 给 公司 带 来 的 伍 利 。 不 过 这 
种 指标 不 是 很 难 计算 ,只 是 计算 一 次 需要 比较 大 的 代价 。 因 此 , 很 多 公司 会 根据 自己 的 县 利 模式 
设计 不 同 的 商业 目标 。 
不 同 的 网 站 具有 不 同 的 商业 目标 。 比 如 电子 商务 网 站 的 目标 可 能 是 销售 额 ， 基 于 展示 广告 盘 
利 的 网 站 其 商业 目标 可 能 是 广告 展示 总 数 , 基于 点 击 广 告 钥 利 的 网 站 其 商业 目标 可 能 是 广告 点 击 
总 数 。 因 此 , 设计 推荐 系统 时 需要 考虑 最 终 的 商业 目标 ,而 网 站 使 用 推荐 系统 的 目的 除了 满足 用 
户 发 现 内 容 的 需求 ， 也 需要 利用 推荐 系统 加 快 实现 商业 上 的 指标 。 
11. 总 结 
本 节 提 到 了 很 多 指标 ， 其 中 有 些 指 标 可 以 离线 计算 ， 有 些 只 能 在 线 获 得 。 但 是 ， 离 线 指标 很 
多 , 在 线 指标 也 很 多 , 那么 如 何 优化 离线 指标 来 提高 在 线 指 标 是 推荐 系统 研究 的 重要 问题 。 关 于 
这 个 问题 ， 目 前 仍然 没有 什么 定论 ， 只 是 不 同系 统 的 研究 人 员 有 不 同 的 感性 认识 。 
表 1-3 对 前 面 提 到 的 指标 进行 了 总 结 。 


表 1-3 ”获取 各 种 评测 指标 的 途径 
























































































































































离线 实验 问卷 调查 在 线 实验 
用 户 满意 度 x Vv O 
预测 准确 度 V/ Vv x 
覆盖 率 Vv 
多 样 性 局 V/ @: 
新 颖 性 O Vv O 
惊喜 度 x Vv x 





对 于 可 以 离线 优化 的 指标 ,我 个 人 的 看 法 是 应 该 在 给 定 覆 盖 率 、 多 样 性 、 新 颖 性 等 限制 条 件 
下 ， 尽 量 优化 预测 准确 度 。 用 一 个 数学 公式 表达 ， 离 线 实 验 的 优化 目标 是 : 
最 大 化 预测 准确 度 
使 得 ”覆盖 率 >4 
多 样 性 >B 
新 颖 性 > C 
其 中 ,4、B、C 的 取 值 应 该 视 不 同 的 应 用 而 定 。 
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1.3.3 ”评测 维度 


上 一 节 介绍 了 很 多 评测 指标 ， 但 是 在 评测 系统 中 还 需要 考虑 评测 维度 ， 比 如 一 个 推荐 算法 ， 
虽然 整体 性 能 不 好 , 但 可 能 在 某 种 情况 下 性 能 比较 好 ， 而 增加 评测 维度 的 目的 就 是 知道 一 个 算法 
在 什么 情况 下 性 能 最 好 。 这 样 可 以 为 融合 不 同 推荐 算法 取得 最 好 的 整体 性 能 带 来 参考 。 

一 般 来 说 ， 评 测 维度 分 为 如 下 3 种 。 
口 用 户 维度 ”主要 包括 用 户 的 人 口 统计 学 信息 、 活 跃 度 以 及 是 不 是 新 用 户 等 。 

口 物品 维度 ”包括 物品 的 属性 信息 、 流 行 度 、 平 均 分 以 及 是 不 是 新 加 入 的 物品 等 。 
口 时 间 维 度 ”包括 季节 ， 是 工作 日 还 是 周末 ， 是 白天 还 是 晚上 等 。 

如 果 能 够 在 推荐 系统 评测 报告 中 包含 不 同 维 度 下 的 系统 评测 指标 , 就 能 帮 我 们 全 面 地 了 解 推 

荐 系统 性 能 ， 找 到 一 个 看 上 去 比较 弱 的 算法 的 优势 ， 发 现 一 个 看 上 去 比较 强 的 算法 的 缺点 。 
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为 了 让 推荐 结果 符合 用 户口 味 , 我 们 需要 深入 了 解 用 户 。 如 何 才 能 了 解 一 个 人 呢 ?《 论 语 ' 公 
冶 长 》 中 说 “ 听 其 言 ， 观 其 行 ”， 也 就 是 说 可 以 通过 用 户 留 下 的 文字 和 行为 了 解 用 户 兴趣 和 需求 。 
实现 个 性 化 推荐 的 最 理想 情况 是 用 户 能 在 注册 的 时 候 主动 告诉 我 们 他 喜欢 什么 , 但 这 种 方法 有 3 
个 缺点 : 首先 , 现在 的 自然 语言 理解 技术 很 难 理解 用 户 用 来 描述 兴趣 的 自然 语言 ; 其 次 , 用户 的 
兴趣 是 不 断 变 化 的 , 但 用 户 不 会 不 停 地 更 新 兴趣 描述 ; 最 后 ,很 多 时 候 用 户 并 不 知道 自己 喜欢 什 
么 ,或 者 很 难 用 语言 描述 自己 喜欢 什么 。 因 此 , 我 们 需要 通过 算法 自动 发 气 用 户 行为 数据 ， 从 用 
户 的 行为 中 推测 出 用 户 的 兴趣 ， 从 而 给 用 户 推荐 满足 他 们 兴趣 的 物品 。 

基于 用 户 行为 数据 的 应 用 其 实 早 在 个 性 化 推荐 系统 诞生 之 前 就 已 经 在 互联 网 上 非常 流行 了 ， 
其 中 最 典型 的 就 是 各 种 各 样 的 排行 榜 。 这 些 排行 榜 包括 热门 排行 榜 和 趋势 排行 榜 等 。 尽 管 这 些 排 
行 榜 应 用 仅仅 基于 简单 的 用 户 行为 统计 , 但 它们 在 互联 网 上 获得 了 很 多 用 户 的 青睐 。 因 此 , 用户 
行为 数据 的 分 析 是 很 多 优秀 产品 设计 的 基础 , 个 性 化 推荐 算法 通过 对 用 户 行 为 的 深度 分 析 , 可 以 
给 用 户 带 来 更 好 的 网 站 使 用 体验 。 

用 户 的 行为 不 是 随机 的 ， 而 是 列 含 着 很 多 模式 。 举 一 个 简单 的 例子 ,在 电子 商务 网 站 中 , 我 
们 每 次 购物 时 网 站 都 会 生成 一 个 购物 车 , 里 面包 括 了 我 们 一 次 购买 的 所 有 商品 。 购 物 车 分 析 是 很 
多 电子 商务 网 站 , 甚至 传统 零售 业 的 核心 数据 分 析 任务 ， 比 如 我 们 可 以 分 析 哪 些 商 品 会 同时 出 现 
在 购物 车 中 。 这 里 面 最 车 名 的 例子 就 是 啤酒 和 尿布 的 例子 ， 这 个 例子 是 数据 挖掘 的 经 典 案例 。 这 
个 故事 有 非常 多 的 版 本 , 甚至 有 人 认为 这 个 故事 本 身 就 是 一 个 误会 。 不 过 我 们 还 是 用 这 个 故事 简 
单 说 明 一 下 用 户 行为 分 析 的 重要 性 。 这 个 故事 的 一 个 版 本 是 说 , 有 一 个 超市 人 员 发 现 很 多 人 会 同 
时 购买 啤酒 和 尿布 ,后 来 他 们 认为 是 很 多 妇女 要 在 家 照顾 孩子 ,就 让 自己 的 丈夫 去 买 尿 布 ， 而 丈 
夫 在 买 尿 布 的 同时 不 忘 买 一 下 自己 喜欢 的 啤酒 , 于 是 这 两 个 风 马 牛 不 相 及 的 东西 就 这 么 产生 联系 
了 。 于 是 超市 工作 人 员 把 啤酒 和 尿布 放 在 了 同一 个 货架 上 ，, 结果 这 两 种 商品 的 销售 量 都 明显 上 升 
了 。 不 同人 看 到 这 个 故事 有 不 同 的 理解 ,我 们 从 算法 设计 人 员 的 角度 看 ， 这 个 故事 说 明 用 户 行为 
数据 中 蕴涵 着 很 多 不 是 那么 显而易见 的 规律 , 而 个 性 化 推荐 算法 的 任务 就 是 通过 计算 机 去 发 现 这 
些 规律 ， 从 而 为 产品 的 设计 提供 指导 ， 提 高 用 户 体验 。 

啤酒 和 尿布 的 故事 在 互联 网 上 被 发 扬 光 大 。 电子 商务 公司 通过 分 析 用 户 的 购物 车 , 找 出 诸如 
“购买 A 商品 的 用 户 都 购买 B 商 品 ” 这 种 规律 ， 同 时 在 用 户 浏览 A 商品 时 直接 为 其 展示 购买 A 商品 
的 用 户 都 购买 的 其 他 商品 ( 如 图 2-1 所 示 )。 
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截取 自 当 当 网 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 


图 2-1 当当 网 在 用 户 浏览 《数据 控 气 导论》 时 给 
还 买 过 ”的 书 


基于 用 户 行为 分 析 的 推荐 算法 是 个 性 化 推荐 系统 的 重要 算法 , 学 术 界 一 般 将 这 种 类 型 的 算法 
称 为 协同 过 滤 算 法 。 顾名思义 ,协同 过 滤 就 是 指 用 户 可 以 齐心 协力 , 通过 不 断 地 和 网 站 互动 , 使 
自己 的 推荐 列表 能 够 不 断 过 滤 掉 自己 不 感 兴趣 的 物品 ， 从 而 越 来 越 满 足 自己 的 需求 。 


2.1 用 户 行为 数据 简介 


本 章 提 到 的 个 性 化 推荐 算法 都 是 基于 用 户 行为 数据 分 析 设 计 的 , 因此 本 节 将 首先 介绍 用 户 行 
为 数据 。 

用 户 行为 数据 在 网 站 上 最 简单 的 存在 形式 就 是 日 志 。 网 站 在 运行 过 程 中 都 产生 大 量 原 始 日 志 
(raw log ), 并 将 其 存储 在 文件 系统 中 。 很 多 互联 网 业务 会 把 多 种 原始 日 志 按照 用 户 行为 汇总 成 会 
话 日 志 ( session log )， 其 中 每 个 会话 表示 一 次 用 户 行为 和 对 应 的 服务 。 比 如 , 在 搜索 引 敬 和 搜索 
广告 系统 中 ， 服 务 会 为 每 次 查询 生成 一 个 展示 日 志 (impression log )， 其 中 记录 了 查询 和 返回 结 
果 。 如 果 用 户 点 击 了 某 个 结果 ， 这 个 点 击 信息 会 被 服务 器 截获 并 存储 在 点 击 日 志 (click log ) 中 。 
一 个 并 行程 序 会 周期 性 地 归并 展示 日 志和 点 击 日 志 , 得 到 的 会 话 日 志 中 每 个 消息 是 一 个 用 户 提 交 
的 查询 、 得 到 的 结果 以 及 点 击 。 类似 地 , 推荐 系统 和 电子 商务 网 站 也 会 汇总 原始 日 志 生 成 描述 用 
户 行 为 的 会 话 日 志 。 会 话 日 志 通 常 存储 在 分 布 式 数 据 仓库 中 ， 如 支持 离线 分 析 的 Hadoop Hive 和 
支持 在 线 分 析 的 Google Dremel。 这 些 日 志 记 录 了 用 户 的 各 种 行为 ， 如 在 电子 商务 网 站 中 这 些 行 
为 主要 包括 网 页 浏览 、 购 买 、 点 击 、 评 分 和 评论 等 。 

用 户 行为 在 个 性 化 推荐 系统 中 一 般 分 两 种 一 一 显 性 反馈 行为 (explicit feedback ) 和 隐 性 反馈 
行为 ( implicit feedback )。 显 性 反馈 行为 包括 用 户 明 确 表示 对 物品 喜好 的 行为 。 图 2-2 显 示 了 不 同 
网 站 收集 显 性 反馈 的 方式 。 可 以 看 到 ， 这 里 的 主要 方式 就 是 评分 和 喜欢 /不 喜欢 。 很 多 网 站 都 使 
用 了 5 分 的 评分 系统 来 让 用 户 直接 表达 对 物品 的 喜好 , 但 也 有 些 网 站 使 用 简单 的 “喜欢 ”或 者 “不 

















] 户 推荐 “购买 本 商品 的 顾客 








Doge 


























图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


2.1 用 户 行为 数据 简介 37 











喜欢 ”按钮 收集 用 户 的 兴趣 。 这 些 不 同 的 显 性 反馈 方式 各 有 利 浆 。YouTube 最 早 是 用 5 分 评分 系统 

收集 显 性 反馈 的 ， 但 后 来 他 们 的 研究 人 员 统 计 了 不 同 评分 的 评分 数 "， 结 果 发 现 ， 用 户 最 常用 的 

评分 是 5 分 ， 甚 次 是 1 分 ， 其 他 的 分 数 很 少 有 用 户 打 。 因 此 ， 后 来 YouTube 就 把 评分 系统 改 成 了 两 

档 评分 系统 〈 喜欢 /不 喜欢 )。 当 然 ， 我 们 举 这 个 例子 并 不 是 试图 说 明 一 种 评分 系统 比 男 一 种 好 ， 

而 是 要 说 明 不 同 的 网 站 需要 根据 自己 的 特点 设计 评分 系统 ， 而 不 是 一 味 照搬 其 他 网 站 的 设计 。 2 
YouTube 的 用 户主 要 将 精力 放 在 看 视频 上 ， 因 此 他 们 只 有 在 特别 不 满 或 者 特别 满意 时 才 会 评分 ， 

因此 二 级 评分 系统 就 足够 了 。 但 如 果 是 评论 网 站 , 用 户主 要 将 精力 放 在 评论 上 ,这 时 多 级 评分 系 

统 就 是 必要 的 。 
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分 别 截取 自 Hulu 、Netflix、Jinni、Pandora、Facebook 和 Clicker 网 站 ， 图 中 
相关 内 容 的 著作 权 归 原著 作 权 人 所 有 


图 2-2 各 种 显 性 反馈 界面 


和 显 性 反馈 行为 相对 应 的 是 隐 性 反馈 行为 。 隐 性 反馈 行为 指 的 是 那些 不 能 明确 反应 用 户 喜 好 
的 行为 。 最 具 代表 性 的 隐 性 反馈 行为 就 是 页 面 浏览 行为 。 用 户 浏览 一 个 物品 的 页 面 并 不 代表 用 户 
一 定 喜欢 这 个 页 面 展示 的 物品 , 比如 可 能 因为 这 个 页 面 链 接 显示 在 首页 , 用户 更 容易 点 击 它 而 已 。 
相 比 显 性 反馈 ， 隐 性 反馈 虽然 不 明确 ,但 数据 量 更 大 。 在 很 多 网 站 中 , 很 多 用 户 甚至 只 有 隐 性 反 
馈 数 据 ， 而 没有 显 性 反馈 数据 。 表 2-1 从 几 个 不 同方 面 比 较 了 显 性 反馈 数据 和 隐 性 反馈 数据 。 


表 2-1 显 性 反馈 数据 和 隐 性 反馈 数据 的 比较 


























显 性 反馈 数据 隐 性 反馈 数据 
用 户 兴趣 明确 不 明确 
数量 较 少 庞大 
存储 数据 库 分 布 式 文件 系统 
实时 读 取 实时 有 延迟 
正 负 反馈 都 有 只 有 正 反 馈 





人 参见 “Five Stars Dominate Ratings”， 地 址 为 http://youtube-global.blogspot.com/2009/09/five-stars-dominate-ratings.html。 
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按照 反馈 的 明确 性 分 ， 用户 行 为 数据 可 以 分 为 显 性 反馈 和 隐 性 反馈 ,但 按照 反馈 的 方向 分 ， 
又 可 以 分 为 正 反 馈 和 负 反 馈 。 正 反馈 指 用 户 的 行为 倾向 于 指 用 户 喜 欢 该 物品 ,而 负 反 馈 指 用 户 的 
行为 倾向 于 指 用 户 不 喜欢 该 物品 。 在 显 性 反馈 中 ,很 容易 区 分 一 个 用 户 行为 是 正 反馈 还 是 负 反 馈 ， 
而 在 隐 性 反馈 行为 中 ， 就 相对 比较 难以 确定 。 

为 了 更 好 地 说 明 什么 数据 是 显 性 反馈 数据 ， 什 么 是 隐 性 反馈 数据 ， 表 2-2 列 举 了 各 个 领域 的 
网 站 中 这 两 种 行为 的 例子 。 


表 2-2 各 代表 网 站 中 显 性 反馈 数据 和 隐 性 反馈 数据 的 例子 















































显 性 反馈 隐 性 反馈 
视频 网 站 用 户 对 视频 的 评分 用 户 观 看 视频 的 日 志 、 浏 览 视频 页 面 的 日 志 
电子 商务 网 站 用 户 对 商品 的 评分 购买 日 志 、 议 览 日 志 
门户 网 站 用 户 对 新 闻 的 评分 阅读 新 闻 的 日 志 
音乐 网 站 用 户 对 音乐 /歌手 /专辑 的 评分 听 歌 的 日 志 




















互联 网 中 的 用 户 行为 有 很 多 种 ， 比 如 浏览 网 页 、 购 买 商品 、 评 论 、 评 分 等 。 要 用 一 个 统一 的 
方式 表示 所 有 这 些 行为 是 比较 困难 的 。 表 2-3 给 出 了 一 种 表示 方式 ， 它 将 一 个 用 户 行为 表示 为 6 部 
分 ， 即 产生 行为 的 用 户 和 行为 的 对 象 、 行 为 的 种 类 、 产 生 行 为 的 上 下 文 、 行 为 的 内 容 和 权重 。 


表 2-3 用户 行为 的 统一 表示 

















WE 产生 行为 的 用 户 的 唯一 标识 

ES 产生 行为 的 对 象 的 唯一 标识 

Dahavi or HYDe 行为 的 种 类 (比如 是 购买 还 是 浏览 ) 

RE 产生 行为 的 上 下 文 ， 包 括 时 间 和 地 点 等 

behavior weight 行为 的 权重 (如 果 是 观看 视频 的 行为 ， 那 么 这 个 权重 可 以 是 观看 时 长 ， 如 果 是 打分 行为 ， 
这 个 权重 可 以 是 分 数 ) 





behavior content 行为 的 内 容 (如 果 是 评论 行为 ， 那 么 就 是 评论 的 文本 ， 如 果 是 打 标 签 的 行为 ， 就 是 标签 ) 

















当然 ,在 很 多 时 候 我 们 并 不 使 用 统一 结构 表示 所 有 行为 , 而 是 针对 不 同 的 行为 给 出 不 同 表示 。 
而 且 ， 有 些 时 候 可 能 会 忽略 一 些 信息 ( 比如 上 下 文 )。 当 然 ， 有 些 信息 是 不 能 忽略 的 ， 比 如 产生 
行为 的 用 户 和 行为 的 对 象 就 是 所 有 行为 都 必须 包含 的 ,一 般 来 说 ,不 同 的 数据 集 包 含 不 同 的 行为 ， 
目前 比较 有 代表 性 的 数据 集 有 下 面 几 个 。 
口 无 上 下 文 信息 的 隐 性 反馈 数据 集 每 一 条 行为 记录 仅仅 包含 用 户 ID 和 物品 ID 。 
Book-Crossing" 就 是 这 种 类 型 的 数据 集 。 
口 无 上 下 文 信息 的 显 性 反馈 数据 集 每 一 条 记录 包含 用 户 ID 、 物 唱 ID 和 用 户 对 物品 的 评分 。 
口 有 上 下 文 信息 的 隐 性 反馈 数据 集 每 一 条 记录 包含 用 户 ID 、 物 品 IDP 和 用 户 对 物品 产生 行 
































人 参见 “Book-Crossing Dataset”"， 地 址 为 http:/www.informatik.uni-freiburg.de/~cziegler/BX/。 
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为 的 时 间 戳 。Lastftm 数 据 集 "就 是 这 种 类 型 的 数据 集 。 

口 有 上 下 文 信息 的 显 性 反馈 数据 集 ”每 一 条 记录 包含 用 户 ID 、 物 品 ID 、 用 户 对 物品 的 评分 
和 评分 行为 发 生 的 时 间 戳 。Netflix Prize” 提供 的 就 是 这 种 类 型 的 数据 集 。 

本 章 使 用 的 数据 集 基 本 都 是 第 一 种 数据 集 ， 即 无 上 下 文 信息 的 隐 性 反馈 数据 集 。 


2.2 用户 行为 分 析 


在 利用 用 户 行为 数据 设计 推荐 算法 之 前 , 研究 人 员 首 先 需 要 对 用 户 行为 数据 进行 分 析 ， 了解 
数据 中 蕴含 的 一 般 规律 , 这 样 才能 对 算法 的 设计 起 到 指导 作用 。 本 节 将 介绍 用 户 行为 数据 中 蕴含 
的 一 般 规律 ,这 些 规 律 并 不 是 只 存在 于 一 两 个 网 站 中 的 特例 , 而 是 存在 于 很 多 网 站 中 的 普遍 规律 。 


2.2.1 用 户 活跃 度 和 物品 流行 度 的 分 布 


很 多 关于 互联 网 数据 的 研究 发 现 , 互联 网 上 的 很 多 数据 分 布 都 满足 一 种 称 为 Power Law” 的 分 
布 ， 这 个 分 布 在 互联 网 领域 也 称 长 尾 分 布 。 
f(x) = ax 
长 尾 分 布 其 实 很 早 就 被 统计 学 家 注意 到 了 。1932 年 ， 哈 佛 大 学 的 语言 学 家 Zipf 在 研究 英文 单 
词 的 词 频 时 发 现 , 如 果 将 单词 出 现 的 频率 按照 由 高 到 低 排列 , 则 每 个 单词 出 现 的 频率 和 它 在 热门 
排行 榜 中 排名 的 常数 次 智成 反比 。 这 个 分 布 称 为 Zipf 定 律 。 这 个 现象 表明 ， 在 英文 中 大 部 分 词 的 
词 频 其 实 很 低 ， 只 有 很 少 的 词 被 经 常 使 用 。 
很 多 研究 人 员 发 现 , 用 户 行为 数据 也 蕴含 着 这 种 规律 。 令 f,( 及 为 对 个 物品 产生 过 行为 的 用 户 
数 ， 令 fi( 甩 为 被 k 个 用 户 产 生 过 行为 的 物品 数 。 那 么 ，f(D 和 fi( 妨 都 满足 长 尾 分 布 。 也 就 是 说 : 
fi(k)= ok 
f. (Kk)= ,kt 
为 了 说 明 用 户 行为 的 长 尾 分 布 , 我 们 选择 Delicious 和 CiteULike 数 据 集 一 个 月 的 原始 数据 进行 
分 析 。 这 里 , 我 们 没有 用 Netflix 或 者 MovieLens 数 据 集 是 因为 这 两 个 数据 集 都 经 过 了 人 为 的 清理 ， 
被 清除 了 很 多 稀 蚊 的 数据 ， 所 以 它们 的 分 布 不 能 反映 网 站 的 真实 分 布 。 图 2-3 展 示 了 Delicious 和 
CiteULike 数 据 集中 物品 流行 度 的 分 布 曲线 。 横 坐标 是 物品 的 流行 度 尺 ， 纵 坐标 是 流行 度 为 K 的 物 
品 的 总 数 。 这 里 ， 物 品 的 流行 度 指 对 物品 产生 过 行为 的 用 户 总 数 。 图 2-4 展 示 了 Delicious 和 
CiteULike 数 据 集中 用 户 活跃 度 的 分 布 曲线 。 横 坐标 是 用 户 的 活跃 度 太 ， 纵 坐标 是 活跃 度 为 K 的 用 
户 总 数 。 这 里 ， 用 户 的 活跃 度 为 用 户 产 生 过 行为 的 物品 总 数 。 











































































































@ 参见 http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastftm-1K.html。 
@ 参见 http://netflixprize.com/。 
@ 参见 “ 浅 谈 网 络 世 界 的 Power Law 现 象 ”， 地 址 为 http://mmdays.com/2008/11/22/power law_1/。 
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图 2-3 ”物品 流行 度 的 长 尾 分 布 
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图 2-4 ”用 户 活跃 度 的 长 尾 分 布 

这 两 幅 图 都 是 双 对 数 曲 线 , 而 长 尾 分 布 在 双 对 数 曲线 上 应 该 呈 直 线 。 这 两 幅 图 中 的 曲线 都 呈 
近似 直线 的 形状 ,从 而 证 明 不 管 是 物品 的 流行 度 还 是 用 户 的 活跃 度 ,都 近似 于 长 尾 分 布 , 特别 是 
物品 流行 度 的 双 对 数 曲 线 ， 非 常 接 近 直 线 。 
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2.2.2 ”用 户 活跃 度 和 物品 流行 度 的 关系 


一 般 来 说 , 不 活路 的 用 户 要 么 是 新 用 户 , 要 么 是 只 来 过 网 站 一 两 次 的 老 用 户 。 那 么 ,不 同 活 
跃 度 的 用 户 喜 欢 的 物品 的 流行 度 是 否 有 差别 ? 一 般 认为 , 新 用 户 倾 向 于 浏览 热门 的 物品 , 因为 他 
们 对 网 站 还 不 熟悉 ， 只 能 点 击 首页 的 热门 物品 ， 而 老 用 户 会 逐渐 开始 浏览 冷门 的 物品 。 岁 2-5 展 
示 了 MovieLens 数 据 集中 用 户 活 跃 度 和 物品 流行 度 之 间 的 关系 ， 其 中 横 坐 标 是 用 户 活跃 度 ， 纵 坐 
标 是 具有 茶 个 活跃 度 的 所 有 用 户 评 过 分 的 物品 的 平均 流行 度 。 如 图 2-5 所 示 ， 图 中 曲线 呈 明 显 下 
降 的 趋势 ， 这 表明 用 户 越 活 跃 ， 越 倾向 于 浏览 冷门 的 物品 。 
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图 2-5 ”MovieLens 数 据 集中 用 户 活跃 度 和 物品 流行 度 的 关系 


仪 仅 基 于 用 户 行为 数据 设计 的 推荐 算法 一 般 称 为 协同 过 滤 算法 。 学 术 界 对 协同 过 滤 算 法 
进行 了 深入 研究, 提出 了 很 多 方法 ,比如 基于 邻 域 的 方法 (neighborhood-based )、 隐 语义 模型 
(latent factor model )、 基 于 图 的 随机 游 走 算法 (random walk on graph ) 等 。 在 这 些 方法 中 ， 
最 著名 的 、 在 业界 得 到 最 广泛 应 用 的 算法 是 基于 邻 域 的 方法 ， 而 基于 邻 域 的 方法 主要 包含 下 
面 两 种 算法 。 

口 基于 用 户 的 协同 过 滤 算 法 ”这 种 算法 给 用 户 推荐 和 他 兴趣 相似 的 其 他 用 户 喜 欢 的 物品 。 
口 基于 物品 的 协同 过 滤 算 法 ”这 种 算法 给 用 户 推荐 和 他 之 前 喜欢 的 物品 相似 的 物品 。 
下 面 几 节 将 首先 介绍 上 面 两 种 算法 ， 然 后 再 简单 介绍 隐语 义 模型 和 基于 图 的 模型 。 


2.3 ”实验 设计 和 算法 评测 


前 文 说 过 ,评测 推荐 系统 有 3 种 方法 一 一 离线 实验 、 用 户 调 查 和 在 线 实验 。 本 节 将 通过 离线 
实验 方法 评测 提 到 的 算法 。 首 先 介 绍 用 到 的 数据 集 ， 然 后 介绍 采用 的 实验 方法 和 评测 指标 。 
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2.3.1 数据 集 


本 章 采用 GroupLens 提 供 的 MovieLens 数 据 集 "介绍 和 评测 各 种 算法 。MovieLens 数 据 集 有 3 个 
不 同 的 版 本 ， 本 章 选 用 中 等 大 小 的 数据 集 。 该 数据 集 包 含 6000 多 用 户 对 4000 多 部 电影 的 100 万 条 
评分 。 该 数据 集 是 一 个 评分 数据 集 ， 用户 可 以 给 电影 评 5 个 不 同等 级 的 分 数 ( 1 ~ 5 分 )。 本 章 着 重 
研究 隐 反 馈 数 据 集中 的 TopN 推 荐 问题 ， 因 此 忽略 了 数据 集中 的 评分 记录 。 也 就 是 说 ，TopN 推 荐 
的 任务 是 预测 用 户 会 不 会 对 某 部 电影 评分 , 而 不 是 预测 用 户 在 准备 对 某 部 电影 评分 的 前 提 下 会 给 
电影 评 多 少 分 。 


















































2.3.2 实验 设计 


协同 过 滤 算 法 的 离线 实验 一 般 如 下 设计 。 首 先 ， 将 用 户 行为 数据 集 按照 均匀 分 布 随机 分 成 M 
份 (本 章 取 M=8 )， 挑 选 一 份 作为 测试 集 ， 将 剩 下 的 M-1 份 作为 训练 集 。 然 后 在 训练 集 上 建立 用 户 
兴趣 模型 ， 并 在 测试 集 上 对 用 户 行为 进行 预测 , 统计 出 相应 的 评测 指标 。 为 了 保证 评测 指标 并 不 
是 过 拟 合 的 结果 ， 需 要 进行 M 次 实验 ,并且 每 次 都 使 用 不 同 的 测试 集 。 然 后 将 M 次 实验 测 出 的 评 
测 指标 的 平均 值 作为 最 终 的 评测 指标 。 
下 面 的 Python 代码 描述 了 将 数据 集 随 机 分 成 训练 集 和 测试 集 的 过 程 : 
def SplitData(data, M, k, seed): 
test = [] 
tei |[] 
random. seed (seed) 
for user, item in data: 
if random.randint (0,M) == k: 
test.append( [user,iteml]) 
else: 


train.append( [user,item]) 
return train, test 


这 里 ,每 次 实验 选取 不 同 的 x (0<k<M-1) 和 相同 的 随机 数 种 子 seed， 进 行 M 次 实验 就 可 
以 得 到 M 个 不 同 的 训练 集 和 测试 集 ， 然 后 分 别 进行 实验 ， 用 MM 次 实验 的 平均 值 作为 最 后 的 评测 指 
标 。 这 样 做 主要 是 防止 某 次 实验 的 结果 是 过 拟 合 的 结果 ( over fitting ), 但 如 果 数 据 集 够 大 ， 模 型 
够 简单 ， 为 了 快速 通过 离线 实验 初步 地 选择 算法 ,也 可 以 只 进行 一 次 实验 。 









































2.3.3 ”评测 指标 


对 用 户 zx 推荐 NM 个 物品 ( 记 为 R(4) )， 令 用 户 zx 在 测试 集 上 喜欢 的 物品 集合 为 TO) ， 然 后 可 以 通 
过 准确 率 /召回 率 评测 推荐 算法 的 精度 : 
FR NT 
Recall=— 


二 ro 


u 





Qa 数据 集 详细 信息 见 http://www.grouplens.org/node/73。 
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> |RCo) 门 7Co]| 
Precision = — SR 


召回 率 描述 有 多 少 比例 的 用 户 -物品 评分 记录 包含 在 最 终 的 推荐 列表 中 ， 而 准确 率 描述 最 终 
的 推荐 列表 中 有 多 少 比例 是 发 生 过 的 用 户 -物品 评分 记录 。 下 面 两 段 代码 给 出 了 召回 率 和 准确 率 二 





的 计算 方法 。 


def Recall(train, test, N): 
hi 室 0 
All 0 
for user in train.keys() : 
tu = test [user] 
rank = GetRecommendation(user, N) 
for item, pui in rank: 
if item in tu: 
hit += 1 
all += len(tu) 
Et lit (all 10) 


def Precision(train, test, N): 
让 
a 30 
for user in train.keys() : 
tu = test [user] 
rank = GetRecommendation(user, N) 
for item, pui in rank: 
if i1tem in tus: 
可 让 长 “二 三 : 入 
all += N 
return hit / (all * 1.0) 


除了 评测 推荐 算法 的 精度 , 本章 还 计算 了 算法 的 覆盖 率 , 覆盖 率 反映 了 推荐 算法 发 据 长 尾 的 
能 力 , 覆盖 率 越 高 , 说明 推 荐 算法 越 能 够 将 长 尾 中 的 物品 推荐 给 用 户 。 这 里 ,我 们 采用 最 简单 的 








Uv RE) 

H 

该 覆盖 率 表示 最 终 的 推荐 列表 中 包含 多 大 比例 的 物品 。 如 果 所 有 的 物品 都 被 推荐 给 至 少 一 个 
用 户 ， 那 么 覆盖 率 就 是 100%。 如 下 代码 可 以 用 来 计算 推荐 算法 的 覆盖 率 : 


def Coverage (train, test, N): 
recommend_items = set() 
all_items = set() 
for user in train.keys() : 
for item in train[user].keys() : 
all_items.add (item) 
rank = GetRecommendation(user, N) 
for item, pui in rank: 
recommend_items.add (item) 
return len(recommengd items) / (len(all_ items) * 1.0) 


Coverage = 








图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


44 ”第 2 章 利用 用 户 行为 数据 





最 后 , 我 们 还 需要 评测 推荐 的 新 颖 度 , 这 里 用 推荐 列表 中 物品 的 平均 流行 度 度量 推荐 结果 的 
新 颖 度 。 如 果 推 荐 出 的 物品 都 很 热门 ， 说 明 推荐 的 新 颖 度 较 低 ， 否 则 说 明 推荐 结果 比较 新 颖 。 


def Popularity (train, test, N): 
item popularity = Qict() 
for user, items in train.items(): 
for item in items.keys() 
if item not in item popularity: 
item popularity[item] = 0 
item popularityl[item] += 1 
0 











nn | 
for user in train.keys() : 
rank = GetRecommendation (user, N) 
for item, pui in rank: 
ret += math.log(1 + item popularityl[item]) 
n += 1 
et /es 天 二 
return ret 


这 里 , 在 计算 平均 流行 度 时 对 每 个 物品 的 流行 度 取 对 数 , 这 是 因为 物品 的 流行 度 分 布 满 足 长 
尾 分 布 ， 在 取 对 数 后， 流行 度 的 平均 值 更 加 稳定 。 


2.4 ”基于 邻 域 的 算 


基于 邻 域 的 算法 是 推荐 系统 中 最 基本 的 算法 , 该 算法 不 仅 在 学 术 界 得 到 了 深入 研究 , 而 且 在 
业界 得 到 了 广泛 应 用 。 基 于 邻 域 的 算法 分 为 两 大 类 ,一 类 是 基于 用 户 的 协同 过 滤 算 法 ， 另 一 类 是 
基于 物品 的 协同 过 滤 算 法 。 下 面 几 节 将 对 这 两 种 算法 进行 深入 介绍 , 对 比 它们 的 优 缺 点 并 提出 改 


2.4.1 基于 用 户 的 协同 过 滤 算 法 


基于 用 户 的 协同 过 滤 算 法 是 推荐 系统 中 最 古老 的 算法 。 可 以 不 夸张 地 说 , 这 个 算法 的 诞生 标 
志 了 推荐 系统 的 诞生 。 该 算法 在 1992 年 被 提出 ， 并 应 用 于 邮件 过 滤 系 统 ，1994 年 被 GroupLens 用 
于 新 闻 过 滤 。 在 此 之 后 直到 2000 年 ， 该 算法 都 是 推荐 系统 领域 最 著名 的 算法 。 本 节 将 对 该 算法 进 
行 详细 介绍 ,首先 介绍 最 基础 的 算法 , 然后 在 此 基础 上 提出 不 同 的 改进 方法 , 并 通过 真实 的 数据 
集 进 行 评测 。 

1. 基础 算法 

每 年 新 学 期 开始 , 刚 进 实 验 室 的 师弟 总 会 问 师 兄 相 似 的 问题 , 比如 “我 应 该 买 什么 专业 书 啊 ”、 
“我 应 该 看 什么 论文 啊 ” 等 。 这 个 时 候 ， 师 兄 一 般 会 给 他 们 做 出 一 些 推荐 。 这 就 是 现实 中 个 性 化 
推荐 的 一 种 例子 。 在 这 个 例子 中 ， 师 弟 可 能 会 请 教 很 多 师兄 ， 然 后 做 出 最 终 的 判断 。 师 弟 之 所 以 
请 教师 兄 , 一 方面 是 因为 他 们 有 社会 关系 , 互相 认识 且 信 任 对 方 , 但 更 主要 的 原因 是 师兄 和 师弟 
有 共同 的 研究 领域 和 兴趣 。 那 么 ， 在 一 个 在 线 个 性 化 推荐 系统 中 ， 当 一 个 用 户 A 需 要 个 性 化 推荐 
时 ， 可 以 先 找到 和 他 有 相似 兴趣 的 其 他 用 户 ， 然 后 把 那些 用 户 喜 欢 的 、 而 用 户 A 没 有 听 说 过 的 物 
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品 推荐 给 A。 这 种 方法 称 为 基于 用 户 的 协同 过 滤 算 法 。 

从 上 面 的 描述 中 可 以 看 到 ， 基 于 用 户 的 协同 过 渡 算 法 主要 包括 两 个 步 又 。 

(1) 找到 和 目标 用 户 兴趣 相似 的 用 户 集合 。 

(2) 找到 这 个 集合 中 的 用 户 喜 欢 的 ， 且 目标 用 户 没 有 听 说 过 的 物品 推荐 给 目标 用 户 。 

步骤 (1) 的 关键 就 是 计算 两 个 用 户 的 兴趣 相似 度 。 这 里 , 协同 过 滤 算 法 主要 利用 行为 的 相似 度 
计算 兴趣 的 相似 度 。 给 定 用 户 u 和 用 户 v， 令 NGCO) 表 示 用 户 u 曾 经 有 过 正 反馈 的 物品 集合 ， 令 NO) 
为 用 户 v 曾 经 有 过 正 反 馈 的 物品 集合 。 那 么 ， 我 们 可 以 通过 如 下 的 Jaccard 公 式 简 单 地 计算 u 和 v 的 
兴趣 相似 度 : 
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或 者 通过 余弦 相似 度 计算 : 





INXoOmnNo) 
aolwo 
下 面 以 图 2-6 中 的 用 户 行为 记录 为 例 ， 举 例 说 明 UserCF 计 算 用 户 兴 趣 相 似 度 的 例子 。 在 该 
例 中 ， 用 户 A 对 物品 {a, 5,q} 有 过 行为 ,用 户 B 对 物品 {a,c} 有 过 行为 ,利用 余弦 相似 度 公 式 计算 用 
户 A 和 用 户 B 的 兴趣 相似 度 为 : 





_ faba}N{acl| _ 1 
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图 2-6 ”用户 行为 记录 举例 
同 理 ， 我 们 可 以 计算 出 用 户 A 和 用 户 C、D 的 相似 度 : 

|{a,b,d} (NN {2,e)| | 

Wic = 一 
Wiabal lobe 6 
_ {a,b,a}N{c,d,e} _1 
Vasb,ad| {ed,e)| 3 
以 余弦 相似 度 为 例 ， 实 现 该 相似 度 可 以 利用 如 下 的 伪 码 : 


def UserSimilarity (train): 
好 过; 全 记忆 
for u in train.keys() : 














Wp 
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for V in train.keys() : 
i 着 :汉语 
Continue 
WIiu][v] = len(train[u] & train[v]y) 
WIiu][v] /= math.sqrt(len(train[u]) * len(train[v]) * 1.0) 
return W 


该 代码 对 两 两 用 户 都 利用 余弦 相似 度 计 算 相似 度 。 这 种 方法 的 时 间 复 杂 度 是 OUU|*|U), 这 在 
用 户 数 很 大 时 非常 耗 时 。 事实 上 , 很 多 用 户 相互 之 间 并 没有 对 同样 的 物品 产生 过 行为 ， 即 很 多 时 
候 |IN(W) 站 NG(v)|=0。 上 面 的 算法 将 很 多 时 间 浪 费 在 了 计算 这 种 用 户 之 间 的 相似 度 上 。 如 果 换 一 
个 思路 ,我们 可 以 首先 计算 出 |NGD)NNGv)|#0 的 用 户 对 (wv)， 然 后 再 对 这 种 情况 除 以 分 母 


YINGDINGY)| 。 

为 此 , 可 以 首先 建立 物品 到 用 户 的 倒 排 表 , 对 于 每 个 物品 都 保存 对 该 物品 产生 过 行为 的 用 户 
列表 。 令 稀 玻 矩 阵 C[W[v]= |NGW)N 由 NGY)|。 那么 , 假设 用 户 u 和 用 户 v 同 时 属于 倒 排 表 中 天 个 物品 对 
应 的 用 户 列表 ， 就 有 C[u][yv]=K。 从 而 ， 可 以 扫描 倒 排 表 中 每 个 物品 对 应 的 用 户 列表 ， 将 用 户 列 
表 中 的 两 两 用 户 对 应 的 C[u][v] 加 1， 最 终 就 可 以 得 到 所 有 用 户 之 间 不 为 0 的 C[u][v]。 下 面 的 代码 实 
现 了 上 面 提 到 的 算法 : 


def UserSimilarity (train): 
# build inverse table for item users 
item users = dict() 
for u, items in train.items(): 
for i in items.keys(): 
if i not in item users: 
item users[i] = set() 
item users[i].add(u) 






































#calculate co-rated items between users 
C= Qict() 
N= dict() 
for i, users in item users.items() : 
for u in users: 
N[u] += 1 
for V in users: 
于 于 仙人 王 全 
Continue 
CIua] [y] += 1 


#calculate finial Similarity matrix W 
W = dict() 
for u, related users in C.items(): 
for Vv, cuv in related users.items(): 
Wliul[v] = cuv / math,.sgqrt(NIul] * NIv]) 
return W 


同样 以 图 2-6 中 的 用 户 行为 为 例 解释 上 面 的 算法 。 首 先 , 需要 建立 物品 -用 户 的 倒 排 表 ( 如 图 
2-7 所 示 )。 然 后 ， 建 立 一 个 4 x 4 的 用 户 相似 度 矩 阵 不 ， 对 于 物品 a， 将 FL4]L8] 和 丈 [B]L4] 加 1， 对 
于 物品 b, 将 WI4][C]J 和 WI[C][4] 加 1， 以 此 类 推 。 扫 描 完 所 有 物品 后 , 我 们 可 以 得 到 最 终 的 于 矩阵 。 
这 里 的 于 是 余弦 相似 度 中 的 分 子 部 分 ， 然 后 将 球 除 以 分 母 可 以 得 到 最 终 的 用 户 兴趣 相似 度 。 
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图 2-7 ”物品 -用 户 倒 排 表 





得 到 用 户 之 间 的 兴趣 相似 度 后 ，UserCF 算 法 会 给 用 户 推 荐 和 他 兴趣 最 相似 的 K 个 用 户 喜 欢 的 
物品 。 如 下 的 公式 度量 了 UserCF 算 法 中 用 户 u 对 物品 ;的 感 兴趣 程度 : 
plu,i) > Wl 


veS(u,K)MN(i) 


其 中 ，S(u, K) 包 含 和 用 户 u 兴 趣 最 接近 的 K 个 用 户 ，N0) 是 对 物品 有 过 行为 的 用 户 集 合 ，w， 
是 用 户 u 和 用 户 v 的 兴趣 相似 度 ，n 代 表 用 户 v 对 物品 的 兴趣 ， 因 为 使 用 的 是 单一 行为 的 隐 有 反馈 数 
据 ， 所 以 所 有 的 m 产 1。 

如 下 代码 实现 了 上 面 的 UserCF 推 荐 算法 : 


def Recommend (user, train, W): 
rank = dict() 
interacteqd_items = train[user] 
for Vv, wuv in sorted(W[u].items, key=itemgetter(1), \ 
reverse=True) [0:K]: 
for i, rvi in train[v]l .iems : 
if i in interacted_ items: 
#we should filter items user interacted before 
continue 



































rank[i] += wuVv * rvi 
return rank 


利用 上 述 算法 ,可 以 给 图 2-7 中 的 用 户 A 进 行 推荐 。 选 取 K=3， 用 户 A 对 物品 ce、e 没 有 过 行为 ， 
因此 可 以 把 这 两 个 物品 推荐 给 用 户 A。 根 据 UserCF 算 法 ， 用 户 A 对 物品 ce、e 的 兴趣 是 : 
p(A,c)=ws +w, =0.7416 
p(A,e)=wic +w,, =0.7416 
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表 2-4 通 过 MovieLens 数 据 集 上 的 离线 实验 来 评测 基础 算法 的 性 能 。UserCF 只 有 一 个 重要 的 参 
数 K， 即 为 每 个 用 户 选 出 K 个 和 他 兴趣 最 相似 的 用 户 , 然后 推荐 那 K 个 用 户 感 兴趣 的 物品 。 因 此 离 
线 实 验 测量 了 不 同 K 值 下 UserCF 算 法 的 性 能 指标 。 


表 2-4 ”MovieLens 数 据 集 中 UserCF 算 法 在 不 同 K 参 数 下 的 性 能 








人 准 确 率 召 回 率 覆 盖 率 流 行 度 
和 16.99% 8.21% 51.33% 6.813293 
10 20.59% 9.95% 41.49% 6.978854 
20 22.99% 11.11% 33.17% 7.10162 
40 24.50% 11.83% 25.87% 7.203149 
80 25.20% 12.17% 20.29% 7.289817 
160 24.90% 12.03% 15.21% 7.369063 





为 了 反映 该 数据 集 上 离线 算法 的 基本 性 能 ， 表 2-5 给 出 了 两 种 基本 推荐 算法 的 性 能 。 表 中 ， 
Random 算 法 每 次 都 随机 挑选 10 个 用 户 没有 产生 过 行为 的 物品 推荐 给 当前 用 户 ，MostPopular 算 法 
则 按照 物品 的 流行 度 给 用 户 推 荐 他 没有 产生 过 行为 的 物品 中 最 热门 的 10 个 物品 。 这 两 种 算法 都 是 
非 个 性 化 的 推荐 算法 ， 但 它们 代表 了 两 个 极端 。 如 表 2-$ 所 示 ，MostPopular 算 法 的 准确 率 和 召回 
率 远 远 高 于 Random 算 法 ,但 它 的 覆盖 率 非 常 低 ， 结 果 都 非常 热门 。 可 见 ，Random 算 法 的 准确 率 
和 召回 率 很 低 ， 但 覆盖 度 很 高 ， 结 果 平 均 流行 度 很 低 。 


表 2-5 ”两 种 基础 算法 在 MovieLens 数 据 集 下 的 性 能 



































准 确 率 召 回 率 覆 盖 率 流行 度 
Random 0.631% 0.305% 100% 4.3855 
MostPopular 12.79% 6.18% 2.60% 7.7244 


如 表 2-4 和 表 2-5 所 示 ，UserCF 的 准确 率 和 召回 率 相 对 MostPopular 算 法 提高 了 将 近 1 倍 。 同 时 ， 
UserCF 的 覆盖 率 远 远 高 于 MostPopular, 推荐 结果 相对 MostPopular 不 太 热门 。 同时 可 以 发 现 参 数 K 
是 UserCF 的 一 个 重要 参数 ， 它 的 调整 对 推荐 算法 的 各 种 指标 都 会 产生 一 定 的 影响 。 

口 准确 率 和 召回 率 可 以 看 到 ， 推 荐 系统 的 精度 指标 ( 准确 率 和 召回 率 ) 并 不 和 参数 kK 成 线 

性 关系 。 在 MovieLens 数 据 集中 ,选择 K=80 左 右 会 获得 比较 高 的 准确 率 和 召回 率 。 因 此 选 

择 合适 的 K 对 于 获得 高 的 推荐 系统 精度 比较 重要 。 当 然 ， 推 荐 结果 的 精度 对 K 也 不 是 特别 
敏感 ， 只 要 选 在 一 定 的 区 域内 ， 就 可 以 获得 不 错 的 精度 。 

口 流行 度 ” 可 以 看 到 ， 在 3 个 数据 集 上 K 越 大 则 UserCF 推 荐 结果 就 越 热 门 。 这 是 因为 K 决 定 
了 UserCF 在 给 你 做 推荐 时 参考 多 少 和 你 兴趣 相似 的 其 他 用 户 的 兴趣 , 那么 如 果 K 越 大 , 参 
考 的 人 越 多 ， 结 果 就 越 来 越 趋 近 于 全 局 热门 的 物品 。 

口 覆盖 率 ”可 以 看 到 ， 在 3 个 数据 集 上 ，K 越 大 则 UserCF 推 荐 结果 的 覆盖 率 越 低 。 覆 盖 率 的 
降低 是 因为 流行 度 的 增加 ， 随 着 流行 度 增 加 ，UserCF 越 来 越 倾向 于 推荐 热门 的 物品 ， 从 
而 对 长 尾 物 品 的 推荐 越 来 越 少 ， 因 此 造成 了 覆盖 率 的 降低 。 
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2. 用 户 相 似 度 计算 的 改进 

上 一 节 介 绍 了 计算 用 户 兴趣 相似 度 的 最 简单 的 公式 (余弦 相似 度 公式 )， 但 这 个 公式 过 于 粗 
糙 ， 本 节 将 讨论 如 何 改进 该 公式 来 提高 UserCF 的 推荐 性 能 。 

首先 ， 以 图 书 为 例 ， 如 果 两 个 用 户 都 曾经 买 过 《新 华 字典 》， 这 丝毫 不 能 说 明 他 们 兴趣 相似 ， 
因为 绝 大 多 数 中 国人 小 时 候 都 买 过 《新 华 字典 六 但 如 果 两 个 用 户 都 买 过 《数据 挖 气 导 论 》， 那 可 
以 认为 他 们 的 兴趣 比较 相似 ， 因 为 只 有 研究 数据 挖掘 的 人 才 会 买 这 本 书 。 换 名 话说 ， 两 个 用 户 对 
冷门 物品 采取 过 同样 的 行为 更 能 说 明 他 们 兴趣 的 相似 度 。 因 此 ，John S. Breese 在 论文 "中 提出 了 
如 下 公式 ， 根 据 用 户 行为 计算 用 户 的 兴趣 相似 度 : 














1 
> iEN(wWNN(Y) logl+|N()| 





Wy 


Iaollwo 


可 以 看 到 ， 该 公式 通过 惩罚 了 用 户 w 和 用 户 * 共 同 兴趣 列表 中 热门 物品 对 他 们 相 


”logl+rINO 





似 度 的 影响 。 
本 书 将 基于 上 述 用户 相 似 度 公式 的 UserCF 算 法 记 为 UserIIEF 算 法 。 下 面 的 代码 实现 了 上 述 用 
户 相似 度 公式 。 


def UserSimilarity (train): 
# build inverse table for item users 
item users = dict() 
for u, items in train.items(): 
for i in items.keys(): 
if i not in item users: 
item users[i] = set() 
item users[i].add(u) 


#calculate co-rated items between users 
C3 Let() 
三 
for i, users in item users.items(): 
for u in users: 
N[u] += 1 
for V in users: 
EV 
continue 
CIu]l[v] += 1 / math.log(1 + len(users)) 


#calculate finial similarity matrix W 
W = dict() 
for u, relateqd users in C.items(): 
for v, cuv in related users.items(): 
WIu][v] = cuv / math.sdart(NIul * NIv]) 
return W 





人 参见 John S. Breese 、 David Heckerman 和 Carl Kadie 的 论文 ”Empirical Analysis of Predictive Algorithms for 
Collaborative Filtering” ( Morgan Kaufmann Publishers, 1998 )。 
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同样 ， 本 节 将 通过 实验 评测 UserCF-IE 的 推荐 性 能 ， 并 将 其 和 UserCF 进 行 对 比 。 在 上 一 节 的 
实验 中 ，K=80 时 UserCF 的 性 能 最 好 ， 因 此 这 里 的 实验 同样 选取 K=80。 

如 表 2-6 所 示 , UserCF-IIF 在 各 项 性 能 上 略 优 于 UserCF。 这 说 明 在 计算 用 户 兴 趣 相 似 度 时 考虑 
物品 的 流行 度 对 提升 推荐 结果 的 质量 确实 有 帮助 。 


表 2-6 ”MovieLens 数 据 集 中 UserCF 算 法 和 User-lIF 算 法 的 对 比 
































准 确 率 召 回 率 覆 盖 率 流行 度 
UserCF 25.20% 12.17% 20.29% 7.289817 
UserCF-IIF 25.34% 12.24% 21.29% 7.261551 


3. 实际 在 线 系统 使 用 UserCF 的 例子 

相 比 我 们 后 面 要 讨论 的 基于 物品 的 协同 过 滤 算 法 ( ItemCF )，UserCF 在 目前 的 实际 应 用 中 使 
用 并 不 多 。 其 中 最 著名 的 使 用 者 是 Digg， 它 在 2008 年 对 推荐 系统 进行 了 新 的 尝试 ?。Digg 使 用 推 
荐 系统 的 原因 也 是 信息 过 载 ， 它 的 研究 人 员 经 过 统计 发 现 ， 每 天 大 概 会 有 15 000 篇 新 的 文章 ， 而 
每 个 用 户 的 精力 是 有 限 的 , 而 且 兴 趣 差 别 很 大 。 因 此 Digg 觉 得 应 该 通过 推荐 系统 帮 用 户 从 这 么 多 
篇 文章 中 找到 真正 令 他 们 感 兴趣 的 内 容 ， 同 时 使 每 篇 文章 都 有 机 会 被 展示 给 用 户 。 

Digg 的 推荐 系统 设计 思路 如 下 。 用 户 在 Digg 中 主要 通过 “ 顶 ” 和 “ 踩 ”( 如 2-8 所 示 ， 最 左 侧 
的 两 个 手 形 按钮 就 是 “ 顶 ” 和 “ 踩 ” 的 按钮 ) 两 种 行为 表达 自己 对 文章 的 看 法 。 当 用 户 顶 了 一 篇 
文章 ，Digg 就 认为 该 用 户 对 这 篇 文章 有 兴趣 ， 而 且 愿 意 把 这 篇 文章 推荐 给 其 他 用 户 。 然 后 ，Digg 
找到 所 有 在 该 用 户 顶 文章 之 前 也 项 了 这 一 篇 文章 的 其 他 用 户 , 然后 给 他 推荐 那些 人 最 近 顶 的 其 他 
文章 。 从 这 里 的 简单 描述 可 以 看 到 ，Digg 使 用 的 是 UserCF 算 法 的 简化 版 本 。 

Digg 在 博客 中 公布 了 使 用 推荐 系统 后 的 效果 ， 主 要 指标 如 下 所 示 。 
口 用 户 反 馈 增 加 : 用户“ 顶 ” 和 “ 踩 ” 的 行为 增加 了 40%。 
口 平均 每 个 用 户 将 从 34 个 具 相 似 兴 趣 的 好 友 那 儿 获 得 200 条 推荐 结 
口 用 户 和 好 友 的 交互 活跃 度 增加 了 24%。 
口 用 户 评论 增加 了 11%。 

当然 ， 上 面 只 是 对 比 了 使 用 推荐 系统 后 和 使 用 推荐 系统 前 的 结果 ， 并 非 AB 测 试 的 结果 ， 
此 还 不 完全 具有 说 服 力 ， 但 还 是 部 分 证 明了 推荐 系统 的 有 效 性 。 
















































































GD 参见 Digg 的 官方 博客 http:/about.digg.comy/blog/digg-recommendation-engine-updates ， 关 于 Digg 的 推荐 算法 的 详细 
设计 参见 http:/vimeo.com/1242909?pg=embed&sec=1242909 处 的 访谈 。 
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My News Trending ” Saved Stories Find People 
152 meny s President Steps Down ® 


印 已 一 German President Christian Wulff resigned , bowing to enormous 
pressure in the wake of a string of disclosures over his personal financial dealings 
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tics 


四 38K 痛 12K 194Comments |#| Co 


截取 自 Digg 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 














图 2-8 ” Digg 的 My News 界 面 


2.4.2 ”基于 物品 的 协同 过 滤 算 法 


基于 物品 的 协同 过 滤 (item-based collaborative filtering ) 算法 是 目前 业界 应 用 最 多 的 算法 。 
无 论 是 亚马逊 网 ， 还 是 Netfixz、Hulu、YouTube， 其 推荐 算法 的 基础 都 是 该 算法 。 本 节 将 从 基础 
的 算法 开始 介绍 ， 然 后 提出 算法 的 改进 方法 ， 并 通过 实际 数据 集 评 测 该 算法 。 

1. 基础 算法 

基于 用 户 的 协同 过 滤 算 法 在 一 些 网 站 ( 如 Digg ) 中 得 到 了 应 用 , 但 该 算法 有 一 些 缺点 。 首 先 ， 
随 着 网 站 的 用 户 数目 越 来 越 大 , 计算 用 户 兴趣 相似 度 和 矩阵 将 越 来 越 困 难 , 其 运算 时 间 复 杂 度 和 空 
间 复 杂 度 的 增长 和 用 户 数 的 增长 近似 于 平方 关系 。 其次, 基于 用 户 的 协同 过 滤 很 难 对 推荐 结果 作 
出 解释 。 因 此 ， 著 名 的 电子 商务 公司 亚马逊 提出 了 男 一 个 算法 一 一 基于 物品 的 协同 过 滤 算 法 ”。 

基于 物品 的 协同 过 滤 算 法 ( 简称 ItemCF ) 给 用 户 推 荐 那些 和 他 们 之 前 喜欢 的 物品 相似 的 物品 。 
比如 ， 该 算法 会 因为 你 购买 过 《数据 挖掘 导论 》 而 给 你 推荐 《机 器 学 习 》 不 过 ，ItemCF 算 法 并 
不 利用 物品 的 内 容 属性 计算 物品 之 间 的 相似 度 , 它 主要 通过 分 析 用 户 的 行为 记录 计算 物品 之 间 的 
相似 度 。 该 算法 认为 , 物品 A 和 物品 B 具 有 很 大 的 相似 度 是 因为 喜欢 物品 4 的 用 户 大 都 也 喜欢 物品 
B。 图 2-9 展 示 了 亚马逊 在 记 hone 商 品 界面 上 提供 的 与 让 hone 相 关 的 商品 ， 而 相关 商品 都 是 购买 






































人 参见 Linden Greg .Smith Brent 和 York Jeremy 的 “Amazon.com Recommendations: Item-to-Item Collaborative Filtering.” 
(IEEE Internet Computing, 2003 )。 


图 灵 社 区 会 员 臭 豆腐 (StinkBCQ@gmail.com) 专 享 尊重 版 权 





52 第 2 章 利用 用 户 行为 数据 





iPhone 的 用 户 也 经 常 购买 的 其 他 商品 。 

基于 物品 的 协同 过 滤 算 法 可 以 利用 用 户 的 历史 行为 给 推荐 结果 提供 推荐 解释 , 比如 给 用 户 推 
荐 《天 龙 八 部 》 的 解释 可 以 是 因为 用 户 之 前 喜欢 《 射 雕 英雄 传 六 如 2-10 所 示 ，Hulu 在 个 性 化 视 
频 推荐 利用 ItemCF 给 每 个 推荐 结果 提供 了 一 个 推荐 解释 , 而 用 于 解释 的 视频 都 是 用 户 之 前 观看 或 
者 收藏 过 的 视频 。 














Customers Who Bought This Item Also Bought Page 1 of 19 
人 本 和 
PE 肯 M 
Ce 
El 2 
区 hs Se SYS? 
| EC 
(4 9 
| Apple iPhone 4 16GB IPHONE 4 16GB GSM by Apple iPhone 45 16GB - Micro SIM Cutter, 4 
Smartphone Black Apple AT&T - Black by Apple Converter with 2 SIM 
(AT&T) 让 妈妈 页 从 (43) 让 妇女 (14) adapters 
妈妈 妈妈 友 (12) $729.99 $580.00 亡 亡 廊 廊 六 (147) 
$520.00 $4.85 

















| | 
4 Apple iPad 2 MC769LL / iPhone Sim Card Tray iPhone 3GS 16 GB Black Apple iPhone 3G 8GB - » 
A Tablet (16GB, WiFi, Open Eject Pin Unlocked by Apple Unlocked by Apple 
Black) by Apple (Compatible for All 六 妆 广 (9) 让 妇女 友 立 (77) 
让 友 让 站 妆 (515) phone) $409.95 $285.00 
次 妆 交 交 妆 (20) 
$0.59 





截取 自 亚马逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
2-9 ”亚马逊 提供 的 用 户 购买 记 hone 后 还 会 购买 的 其 他 商品 
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Click here to See all recommendations. If you are not Liang, click here 
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推荐 解释 














截取 自 Hulu 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 








图 2-10 Hulu 的 个 性 化 视频 推荐 
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基于 物品 的 协同 过 滤 算 法 主要 分 为 两 步 。 

(1) 计算 物品 之 间 的 相似 度 。 

(2) 根据 物品 的 相似 度 和 用 户 的 历史 行为 给 用 户 生 成 推荐 列表 。 

图 2-9 上 亚马逊 显示 相关 物品 推荐 时 的 标题 是 “Customers Who Bought This Item Also Bought” 
(购买 了 该 商品 的 用 户 也 经 常 购买 的 其 他 商品 )。 从 这 句 话 的 定义 出 发 , 我 们 可 以 用 下 面 的 公式 定 
义 物品 的 相似 度 : 

















_INONNO) 
”Wal 

这 里 ， 分 母 INOD)| 是 喜欢 物品 的 用 户 数 ， 而 分 子 |NG) 由 N( 有 )| 是 同时 喜欢 物品 和 物品 的 用 户 
数 。 因 此 ， 上 述 公式 可 以 理解 为 喜欢 物品 的 用 户 中 有 和 多少 比例 的 用 户 也 喜欢 物品 j。 

上 述 公式 虽然 看 起 来 很 有 道理 ， 但 是 却 存 在 一 个 问题 。 如 果 物 品 j 很 热门 ， 很 多 人 都 喜欢 ， 
那么 所 就 会 很 大 ， 接 近 1。 因 此 ， 该 公式 会 造成 任何 物品 都 会 和 热门 的 物品 有 很 大 的 相似 度 ， 这 
对 于 致力 于 挖掘 长 尾 信息 的 推荐 系统 来 说 显然 不 是 一 个 好 的 特性 。 为 了 避免 推荐 出 热门 的 物品 ， 
可 以 用 下 面 的 公式 : 














INONNO) 
INOINOA) 

这 个 公式 惩罚 了 物品 j 的 权重 ， 因 此 减轻 了 热门 物品 会 和 很 多 物品 相似 的 可 能 性 。 

从 上 面 的 定义 可 以 看 到 ， 在 协同 过 滤 中 两 个 物品 产生 相似 度 是 因为 它们 共同 被 很 多 用 户 喜 
欢 , 也 就 是 说 每 个 用 户 都 可 以 通过 他 们 的 历史 兴趣 列表 给 物品 “贡献 ”相似 度 。 这 里 面 蕴 涵 着 一 
个 假设 ,就 是 每 个 用 户 的 兴趣 都 局 限 在 某 几 个 方面 , 因此 如 果 两 个 物品 属于 一 个 用 户 的 兴趣 列表 ， 
那么 这 两 个 物品 可 能 就 属于 有 限 的 几 个 领域 , 而 如 果 两 个 物品 属于 很 多 用 户 的 兴趣 列表 , 那么 它 
们 就 可 能 属于 同一 个 领域 ， 因 而 有 很 大 的 相似 度 。 

和 UserCF 算 法 类 似 ， 用 ItemCF 算 法 计算 物品 相似 度 时 也 可 以 首先 建立 用 户 -物品 倒 排 表 ( 即 
对 每 个 用 户 建立 一 个 包含 他 喜欢 的 物品 的 列表 )， 然 后 对 于 每 个 用 户 ， 将 他 物品 列表 中 的 物品 两 
两 在 共 现 矩阵 C 中 加 1。 详 细 代 码 如 下 所 示 : 


def ItemSimilarity (train): 
#calculate co-rated users between items 
© LGE() 
N' QiGtL) 
for u, items in train.items(): 
for i in users: 
N[i] += 1 
for j in users: 
i 呈 : 全 二 :可 和 
Continue 
CIEE]Ej] 4= 二 


Wa:= 





























#calculate finial similarity matrix W 
访 守 "LEE 
for i,related items in C.items(): 
for j, cij in related_ items.items(): 
WIW] [VY] ij /ath.sqrt (NIil * NI3]) 
return W 
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图 2-11 是 一 个 根据 上 面 的 程序 计算 物品 相似 度 的 简单 例子 。 图 中 最 左边 是 输入 的 用 户 行为 记 
录 , 每 一 行 代表 一 个 用 户 感 兴趣 的 物品 集合 。 然 后 ， 对 于 每 个 物品 集合 ,我 们 将 里 面 的 物品 两 两 
加 一 ， 得 到 一 个 和 矩阵。 最终 将 这 些 和 矩阵 相 加 得 到 上 面 的 C 和 矩阵。 其 中 C[ 四 记录 了 同时 喜欢 物品 i 
和 物品 j 的 用 户 数 。 最 后 ， 将 C 和 矩阵 归 一 化 可 以 得 到 物品 之 间 的 余弦 相似 度 矩 阵 球 。 
























































图 2-11 一 个 计算 物品 相似 度 的 简单 例子 





表 2-7 展 示 了 在 MovieLens 数 据 集 上 利用 上 面 的 程序 计算 电影 之 间 相 似 度 的 结果 。 如 表 中 结果 
所 示 , 尽管 在 计算 过 程 中 没有 利用 任何 内 容 属性 , 但 利用 ItemCF 计 算 的 结果 却 是 可 以 从 内 容 上 看 
出 某 种 相似 度 的 。 一 般 来 说 ， 同 系列 的 电影 、 同 主角 的 电影 、 同 风格 的 电影 、 同 国家 和 地 区 的 电 
影 会 有 比较 大 的 相似 度 。 


表 2-7 利用 ltemCF 在 MovieLens 数 据 集 上 计算 出 的 电影 相似 度 





电 影 电 影 相 似 度 
Aladdin (1992) Lion King, The (1994) 0.5685 
Aladdin (1992) Beauty and the Beast (1991) 0.5634 
Aladdin (1992) Toy Story (1995) 0.5292 
Aladdin (1992) Little Mermaid, The (1989) 0.5227 
Aladdin (1992) Forrest Gump (1994) 0.4589 
Drunken Master (1979) Akira (1988) 0.2086 
Drunken Master (1979) Hard-Boiled (Lashou shentan) (1992) 0.2058 
Drunken Master (1979) Rumble in the Bronx (1995) 0.1942 
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( 续 ) 
电 影 电 影 相 似 度 
Drunken Master (1979) Police Story 4: Project S (Chao jiji hua) (1993) 0.1917 
Drunken Master (1979) Jackie Chan’s First Strike (1996) 0.1911 
Toy Story (1995) Groundhog Day (1993) 0:5373 
Toy Story (1995) Toy Story 2 (1999) 0.5314 
Toy Story (1995) Aladdin (1992) 0.5291 
Toy Story (1995) Matrix, The (1999) 0.5012 
Toy Story (1995) Back to the Future (1985) 0.4980 
Sixth Sense, The (1999) Silence of the Lambs, The (1991) 0.5499 
Sixth Sense, The (1999) American Beauty (1999) 0.5466 
Sixth Sense, The (1999) Fargo (1996) 0.5250 
Sixth Sense, The (1999) Being John Malkovich (1999) 0.5242 
Sixth Sense, The (1999) Usual Suspects, The (1995) 0.5231 
Matrix, The (1999) Terminator 2: Judgment Day (1991) 0.6691 
Matrix, The (1999) Total Recall (1990) 0.6282 
Matrix, The (1999) Men in Black (1997) 0.6210 
Matrix, The (1999) Jurassic Park (1993) 0.6130 
Matrix, The (1999) Star Wars: Episode IV - A New Hope (1977) 0.6008 
Forrest Gump (1994) Groundhog Day (1993) 0.5568 
Forrest Gump (1994) Men in Black (1997) 0.5067 
Forrest Gump (1994) As Good As It Gets (1997) 0.5026 
Forrest Gump (1994) Ghost (1990) 0.5020 
Forrest Gump (1994) Toy Story (1995) 0.4948 


在 得 到 物品 之 间 的 相似 度 后 ，ItemCF 通 过 如 下 公式 计算 用 户 u 对 一 个 物品 j 的 兴 
By = 六 1 
iEN(QWNS(,K) 

这 里 N(w) 是 用 户 喜 欢 的 物品 的 集合 ，SG,) 是 和 物品 ;最 相似 的 K 个 物品 的 集合 ，wi 是 物品 j 和 i 
的 相似 度 , ri 是 用 户 u 对 物品 的 兴趣 。( 对 于 隐 反 人 馈 数 据 集 ， 如 果 用 户 u 对 物品 有 过 行为 ， 即 可 令 
三 1。 ) 该 公式 的 含义 是 ， 和 用 户 历史 上 感 兴趣 的 物品 越 相似 的 物品 ， 越 有 可 能 在 用 户 的 推荐 列 
表 中 获得 比较 高 的 排名 。 该 公式 的 实现 代码 如 下 所 示 。 

def Recommendation(train, user_id, W, K): 

rank = dict() 
ru = train[user_id] 
for 1,pi in ru.items!(): 


for j, wj in sorted(W[i].items(), / 
key=itemgetter(1), reverse=True) [0:K]: 





Wh 





下 在 J in Yu: 
continue 
rank[j] += pi * wj 
return rank 
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图 2-12 是 一 





程 之 美 》 两 本 书 。 然 后 ItemCF 会 为 这 两 本 书 分 别 找 出 和 它们 最 相似 的 3 本 书 ， 然 后 根据 公式 的 定 
义 计算 用 户 对 每 本 书 的 感 兴 趣 程度 。 比 如 , ItemCF 给 用 户 推荐 《算法 导论 》 是 因为 这 本 书 和 《C++ 


一 个 基于 物品 推 














荐 的 简单 例子 。 该 例子 中 ， 用 户 喜 欢 《C++ Primer 中 文 版 》 和 《 编 


















































Primer 中 文 版 》 相 似 ， 相 似 度 为 0.4， 而 且 这 本 书 也 和 《编程 之 美 》 相 似 ， 相 似 度 是 0.5。 考 虑 到 
用 户 对 《C++ Primer 中 文 版 》 的 兴趣 度 是 1.3， 对 《编程 之 美 》 的 兴趣 度 是 0.9， 那 么 用 户 对 《 算 
法 导论 》 的 兴趣 度 就 是 1.3 x 0.4+0.9 x0.5 = 0.97。 


















C++ 编程 思想 1.3x0.7=0.91 





1.3x0.4+0.9x0.5=0.97 





代码 大 全 第 三 版 0.9x0.5=0.45 
ee 1.3x0.6=0.78 
0.9x0.6=0.54 





图 2-12 一 个 简单 的 基于 物品 推荐 的 例子 





ee ItemCF 的 一 个 优势 就 是 可 以 提供 推荐 解释 , 即 利用 用 户 历史 上 喜欢 的 
进行 解释 。 如 下 代码 实现 了 带 解 释 的 ItemCF 算 法 : 
def Recommendation(train, user_id, W, K): 


rank = dict() 
ru = train[user_ idl] 


物品 为 现在 的 推荐 








for TD in Tuiteme(): 


EG 


wj in sorted(W[il].items(), / 


key=itemgetter(1), reverse=True) [0:K] : 


if j in ru: 


continue 
rank[j] .weight += pi * wj 
rank[j] .reason[i] = pi * wj 


return rank 
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表 2-8 列 出 了 在 MovieLens 数 据 集 上 ItemCF 算 法 离线 实验 的 各 项 性 能 指标 的 评测 结果 。 该 表 包 
括 算法 在 不 同 K 值 下 的 性 能 。 根 据 表 2-8 中 的 数据 我 们 可 以 得 出 如 下 结论 。 
口 精度 准确 率 和 召回 率 〉 可 以 看 到 ItemCF 推 荐 结果 的 精度 也 是 不 和 K 成 正 相关 或 者 负 相 
关 的 ， 因 此 选择 合适 的 K 对 获得 最 高 精度 是 非常 重要 的 。 
口 流行 度 ”和 UserCF 不 同 ， 参 数 K 对 TtemCF 推 荐 结果 流行 度 的 影响 也 不 是 完全 正 相 关 的 。 
随 着 K 的 增加 ， 结 果 流 行 度 会 逐渐 提高 ,但 当 K 增 加 到 一 定 程度 ,流行 度 就 不 会 青 有 明显 
变化 。 


口 覆盖 率 ”K 增 加 会 降低 系统 的 覆盖 率 。 


表 2-8 ”MovieLens 数 据 集中 ltemCF 算 法 离线 实验 的 结果 




































































K 准 确 率 召 回 率 覆 盖 率 流 行 度 
5 21.47% 10.37% 21.74% 7.172411 
10 22.28% 10.76% 18.84% 7.254526 
20 22.24% 10.74% 16.93% 7.338615 
40 21.68% 10.47% 15.31% 7.391163 
80 20.64% 9.97% 13.64% 7.413358 
160 19.37% 9.36% 11.77% 7.385278 


2. 用 户 活跃 度 对 物品 相似 度 的 影响 

从 前 面 的 讨论 可 以 看 到 , 在 协同 过 滤 中 两 个 物品 产生 相似 度 是 因为 它们 共同 出 现在 很 多 用 户 
的 兴趣 列表 中 。 换 句 话 说 ,每 个 用 户 的 兴趣 列表 都 对 物品 的 相似 度 产生 贡献 。 那么 ,是 不 是 每 个 
用 户 的 贡献 都 相同 呢 ? 

假设 有 这 么 一 个 用 户 ， 他 是 开 书 店 的 ， 并 且 买 了 当当 网 上 80% 的 书 准备 用 来 自己 卖 。 那 么 ， 
他 的 购物 车 里 包含 当当 网 80% 的 书 。 假 设 当 当 网 有 100 万 本 书 ， 也 就 是 说 他 买 了 80 万 本 。 从 前 面 
对 ItemCF 的 讨论 可 以 看 到 , 这 意味 着 因为 存在 这 么 一 个 用 户 , 有 80 万 本 书 两 两 之 间 就 产生 了 相似 
度 ， 也 就 是 说 ， 内 存 里 即将 诞生 一 个 80 万 乘 80 万 的 稠密 矩阵 。 

男 外 可 以 看 到 ,这 个 用 户 虽 然 活 跃 , 但 是 买 这 些 书 并 非 都 是 出 于 自身 的 兴趣 ,而 且 这 些 书 覆 
盖 了 当当 网 图 书 的 很 多 领域 , 所 以 这 个 用 户 对 于 他 所 购买 书 的 两 两 相似 度 的 贡献 应 该 远 远 小 于 一 
个 只 买 了 十 几 本 自己 喜欢 的 书 的 文学 青年 。 

John S. Breese 在 论文 "中 提出 了 一 个 称 为 IJUF ( Inverse User Frequence )， 即 用 户 活跃 度 对 数 的 
倒数 的 参数 ,他 也 认为 活跃 用 户 对 物品 相似 度 的 贡献 应 该 小 于 不 活跃 的 用 户 ,他 提出 应 该 增加 IUF 
参数 来 修正 物品 相似 度 的 计算 公式 : 
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人 参见 John S. Breese、David Heckerman 和 Carl Kadie 的 “Empirical Analysis of Predictive Algorithms for Collaborative 
Filtering” ( Morgan Kaufmann Publishers ，1998 )。 
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当然 , 上面 的 公式 只 是 对 活跃 用 户 做 了 一 种 软 性 的 惩罚 , 但 对 于 很 多 过 于 活路 的 用 户 ， 比 如 
上 面 那 位 买 了 当当 网 80% 图 书 的 用 户 ， 为 了 避免 相似 度 和 矩阵 过 于 稠密 ,我 们 在 实际 计算 中 一 般 直 
接 忽 略 他 的 兴趣 列表 ， 而 不 将 其 纳入 到 相似 度 计算 的 数据 集中 。 


def ItemSimilarity (train): 
#calculate co-rated users between items 
区 = diett() 
N = dicet() 
for u, items in train.items(): 
for i in users: 
N[i] += 1 
for j in users: 
了 工 芷 :本 三 三 本 
continue 
C[i][j] += 1 / math.log(l1 + len(items) * 1.0) 














#calculate finial similarity matrix W 
W = dict() 
for i,related items in C.items(): 
for j, cij in related items.items(): 
W[u][v] = cij / math.sgqrt (N[i] * N[j]) 
return W 


本 书 将 上 面 的 算法 记 为 emCF-IUF ,下 面 我 们 用 离线 实验 评测 这 个 算法 。 在 这 里 我 们 不 再 考 
虑 参数 K 的 有 影响， 而 是 将 K 选 为 在 前 面 实 验 中 取得 最 优 准 确 率 和 召回 率 的 值 10。 

如 表 2-9 所 示 ，ItemCF-IUF 在 准确 率 和 召回 率 两 个 指标 上 和 ItemCF 相 近 ， 但 ItemCF-IUF 明 显 
提高 了 推荐 结果 的 覆盖 率 ， 降 低 了 推荐 结果 的 流行 度 。 从 这 个 意义 上 说 ，ItemCF-IUF 确 实 改 进 了 
ItemCF 的 综合 性 能 。 


表 2-9 ”MovieLens 数 据 集 中 ltemCF 算 法 和 IltemCF-IUF 算 法 的 对 比 









































准确 率 召 回 率 履 盖 率 流 行 度 
ItemCF 22.28% 10.76% 18.84% 7.254526 
ItemCF-IUF 22.29% 10.77% 19.70% 7.217326 


3. 物品 相似 度 的 归 一 化 

Karypis 在 研究 中 发 现 如 果 将 ItemCF 的 相似 度 矩 阵 按 最 大 值 归 一 化 ， 可 以 提高 推荐 的 准确 率 。?” 
其 研究 表明 ， 如 果 已 经 得 到 了 物品 相似 度 和 矩阵 w， 那 么 可 以 用 如 下 公式 得 到 归 一 化 之 后 的 相似 度 
矩阵 w'; 














Wy 


De Wy 


其 实 ， 归 一 化 的 好 处 不 仅仅 在 于 增加 推荐 的 准确 度 ， 它 还 可 以 提高 推荐 的 覆盖 率 和 多 样 性 。 
一 般 来 说 , 物品 总 是 属于 很 多 不 同 的 类 ,每 一 类 中 的 物品 联系 比较 紧密 。 举 一 个 例子 , 假设 在 一 


Wy 























| 参见 George Karypis 的 论文 “ Evaluation of Item-based Top-N Recommendation Algorithms”。 
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个 电影 网 站 中 , 有 两 种 电影 一 一 纪录 片 和 动画 片 。 那么 ,ItemCF 算 出 来 的 相似 度 一 般 是 纪录 片 和 
纪录 片 的 相似 度 或 者 动画 片 和 动画 片 的 相似 度 大 于 纪录 片 和 动画 片 的 相似 度 。 但 是 纪录 片 之 间 的 
相似 度 和 动画 片 之 间 的 相似 度 却 不 一 定 相同 。 假设 物品 分 为 两 类 一 一 A 和 B, A 类 物品 之 间 的 相似 
度 为 0.5, B 类 物品 之 间 的 相似 度 为 0.6, 而 A 类 物品 和 B 类 物品 之 间 的 相似 度 是 0.2。 在 这 种 情况 下 ， 
如 果 一 个 用 户 喜 欢 了 5 个 A 类 物品 和 5 个 B 类 物品 ,用 ItemCF 给 他 进行 推荐 ,推荐 的 就 都 是 B 类 物品 ， 
因为 B 类 物品 之 间 的 相似 度 大 。 但 如 果 归 一 化 之 后 ，A 类 物品 之 间 的 相似 度 变 成 了 1，B 类 物品 之 
间 的 相似 度 也 是 1， 那 么 这 种 情况 下 ,用户 如 果 喜 欢 5 个 A 类 物品 和 5 个 B 类 物品 ,那么 他 的 推荐 列 
表 中 A 类 物品 和 B 类 物品 的 数目 也 应 该 是 大 致 相等 的 。 从 这 个 例子 可 以 看 出 ， 相 似 度 的 归 一 化 可 
以 提高 推荐 的 多 样 性 。 

那么 ， 对 于 两 个 不 同 的 类 , 什么 样 的 类 其 类 内 物品 之 间 的 相似 度 高 , 什么 样 的 类 其 类 内 物品 
相似 度 低 呢 ? 一般 来 说 , 热门 的 类 其 类 内 物品 相似 度 一 般 比 较 大 。 如 果 不 进行 归 一 化 ,就 会 推荐 
比较 热门 的 类 里 面 的 物品 ， 而 这 些 物 品 也 是 比较 热门 的 。 因 此 ， 推 荐 的 覆盖 率 就 比较 低 。 相 反 ， 
如 果 进 行 相似 度 的 归 一 化 ， 则 可 以 提高 推荐 系统 的 覆盖 率 。 

表 2-10 对 比 了 ItemCF 算 法 和 ItemCF-Norm 算 法 的 离线 实验 性 能 。 从 实验 结果 可 以 看 到 ， 归 
化 确实 能 提高 ftemCF 的 性 能 ， 其 中 各 项 指标 都 有 了 比较 明显 的 提高 。 


表 2-10 ”MovieLens 数 据 集 中 ltemCF 算 法 和 IltemCF-Norm 算 法 的 对 比 












































准 确 率 召 回 率 覆 盖 率 流 行 度 
ItemCF 22.28% 10.76% 18.84% 7.254526 
ItemCF-Norm 22.73% 10.98% 23.73% 7.157385 


2.4.3 UserCF 和 ltemCF 的 综合 比较 


UserCF 是 推荐 系统 领域 较为 古老 的 算法 ，1992 年 就 已 经 在 电子 邮件 的 个 性 化 推荐 系统 
Tapestry 中 得 到 了 应 用 ，1994 年 被 GroupLens "用 来 实现 新 闻 的 个 性 化 推荐 ， 后 来 被 著名 的 文章 分 
享 网 站 Digg 用 来 给 用 户 推荐 个 性 化 的 网 络 文章 。ItemCF 则 是 相对 比较 新 的 算法 , 在 著名 的 电子 商 
务 网 站 亚马逊 和 DVD 租赁 网 站 Netflixz 中 得 到 了 广泛 应 用 。” 

那么 ， 为 什么 Digg 使 用 UserCF ， 而 亚马逊 网 使 用 ItemCF 呢 ? 

首先 回顾 一 下 UserCF 算 法 和 ItemCF 算 法 的 推荐 原理 。UserCF 给 用 户 推荐 那些 和 他 有 共同 兴 
趣 爱 好 的 用 户 喜 欢 的 物品 , 而 ItemCF 给 用 户 推荐 那些 和 他 之 前 喜欢 的 物品 类 似 的 物品 。 从 这 个 算 
法 的 原理 可 以 看 到 ，UserCF 的 推荐 结果 着 重 于 反映 和 用 户 兴 趣 相似 的 小 群体 的 热点 ， 而 ItemCF 
的 推荐 结果 着 重 于 维系 用 户 的 历史 兴趣 。 换 名 话说 ，UserCF 的 推荐 更 社会 化 , 反映 了 用 户 所 在 的 
小 型 兴趣 群体 中 物品 的 热门 程度 ， 而 ItemCF 的 推荐 更 加 个 性 化 ， 反 映 了 用 户 自己 的 兴趣 传承 。 







































































@ 一 个 协同 过 滤 网 络 新 闻 的 开源 架构 。 
人 @) 参见 Linden Greg 、Smith Brent 和 York Jeremy 的 “Amazon.com recommendations: item-to-item collaborative filtering” 
(IEEE Internet Computing，2003 )。 
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在 新 闻 网 站 中 , 用户 的 兴趣 不 是 特别 细 化 , 绝 大 多 数 用 户 都 喜欢 看 热门 的 新 闻 。 即 使 是 个 性 
化 ,也 是 比较 粗 粒度 的 ， 比 如 有 些 用 户 喜 欢 体育 新 闻 ， 有 些 喜 欢 社会 新 闻 ， 而 特别 细 粒 度 的 个 性 
化 一 般 是 不 存在 的 。 比 方 说 ,很 少 有 用 户 只 看 某 个 话题 的 新 闻 ， 主 要 是 因为 这 个 话题 不 可 能 保证 
每 天 都 有 新 的 消息 ， 而 这 个 用 户 却 是 每 天 都 要 看 新 闻 的 。 因 此 ,个 性 化 新 闻 推 荐 更 加 强调 抓 住 
新 闻 热 点 ， 热 门 程度 和 时 效 性 是 个 性 化 新 闻 推 荐 的 重点 ， 而 个 性 化 相对 于 这 两 点 略 显 次 要 。 因 
此 ，UserCF 可 以 给 用 户 推荐 和 他 有 相似 爱好 的 一 群 其 他 用 户 今天 都 在 看 的 新 闻 ， 这 样 在 抓 住 热 
点 和 时 效 性 的 同时 ,保证 了 一 定 程度 的 个 性 化 。 这 是 Digg 在 新 闻 推 荐 中 使 用 UserCF 的 最 重要 
原因 。 

UserCF 适 合用 于 新 闻 推 荐 的 另 一 个 原因 是 从 技术 角度 考量 的 。 因 为 作为 一 种 物品 , 新 闻 的 更 
新 非常 快 , 每 时 每 刻 都 有 新 内 容 出 现 , 而 ItemCF 需 要 维护 一 张 物品 相关 度 的 表 ， 如果 物品 更 新 很 
快 , 那么 这 张 表 也 需要 很 快 更 新 , 这 在 技术 上 很 难 实 现 。 绝 大 多 数 物品 相关 度 表 都 只 能 做 到 一 天 
一 次 更 新 ， 这 在 新 闻 领 域 是 不 可 以 接受 的 。 而 UserCF 只 需要 用 户 相似 性 表 ， 虽 然 UserCF 对 于 新 
用 户 也 需要 更 新 相似 度 表 , 但 在 新 闻 网 站 中 ,物品 的 更 新 速度 远 远 快 于 新 用 户 的 加 入 速度 , 而 且 
对 于 新 用 户 ， 完 全 可 以 给 他 推荐 最 热门 的 新 闻 ， 因 此 UserCF 显 然 是 利 大 于 次 。 

但 是 ,在 图 书 、 电 子 商 务 和 电影 网 站 ， 比 如 亚马逊 、 豆 准 、Netflix 中 ，ItemCF 则 能 极 大 地 发 
挥 优势 。 首先 ， 在 这 些 网 站 中 ,用户 的 兴趣 是 比较 固定 和 持久 的 。 一 个 技术 人 员 可 能 都 是 在 购买 
技术 方面 的 书 , 而 且 他 们 对 书 的 热门 程度 并 不 是 那么 敏感 , 事实 上 越 是 资深 的 技术 人 员 , 他 们 看 
的 书 就 越 可 能 不 热门 。 此 外 , 这些 系 统 中 的 用 户 大 都 不 太 需 要 流行 度 来 辅助 他 们 判断 一 个 物品 的 
好 坏 ， 而 是 可 以 通过 自己 熟悉 领域 的 知识 自己 判断 物品 的 质量 。 因 此 ， 这些 网 站 中 个 性 化 推荐 的 
任务 是 帮助 用 户 发 现 和 他 研究 领域 相关 的 物品 。 因 此 ，ItemCF 算 法 成 为 了 这 些 网 站 的 首选 算法 。 
此 外 , 这些 网 站 的 物品 更 新 速度 不 会 特别 快 , 一 天 一 次 更 新 物品 相似 度 和 矩阵 对 它们 来 说 不 会 造成 
太 大 的 损失 ， 是 可 以 接受 的 。 

同时 ,从 技术 上 考虑 ，UserCF 需 要 维护 一 个 用 户 相似 度 的 矩阵 ,而 ItemCF 需 要 维护 一 个 物品 
相似 度 和 矩阵 。 从 存储 的 角度 说 ， 如 果 用 户 很 多 ， 那 么 维护 用 户 兴 趣 相似 度 和 矩阵 需要 很 大 的 空间 ， 
同 理 ， 如 果 物 品 很 多 ， 那 么 维护 物品 相似 度 和 矩阵 代价 较 大 。 

在 早期 的 研究 中 ， 大 部 分 研究 人 员 都 是 让 少量 的 用 户 对 大 量 的 物品 进行 评价 ， 然 后 研究 用 
户 兴 趣 的 模式 。 那 么 ， 对 于 他 们 来 说 ， 因 为 用 户 很 少 ， 计 算 用 户 兴 趣 相 似 度 是 最 快 也 是 最 简单 
的 方法 。 但 在 实际 的 互联 网 中 ， 用 户 数目 往往 非常 庞大 ， 而 在 图 书 、 电 子 商 务 网 站 中 ， 物 品 的 
数目 则 是 比较 少 的 。 此 外 ， 物 品 的 相似 度 相 对 于 用 户 的 兴趣 一 般 比 较 稳 定 ， 因 此 使 用 ItemCF 是 
比较 好 的 选择 。 当 然 ， 新 闻 网 站 是 个 例外 ， 在 那儿 ， 物 品 的 相似 度 变 化 很 快 ， 物 品 数 目 庞大 ， 
相反 用 户 兴趣 则 相对 固定 (都 是 喜欢 看 热门 的 )， 所 以 新 闻 网 站 的 个 性 化 推荐 使 用 UserCF 算 法 的 
更 多 。 

表 2-11 从 不 同 的 角度 对 比 了 UserCF 和 ItemCF 算 法 。 同 时 , 我 们 也 将 前 面 几 节 的 离线 实验 结果 
展示 在 图 2-13、 图 2-14 和 图 2-15 中 。 从 图 中 可 见 ，ItemCF 算 法 在 各 项 指标 上 似乎 都 不 如 UserCF， 
寺 别 是 其 推荐 结果 的 覆盖 率 和 新 颖 度 都 低 于 UserCF ， 这 一 点 似乎 和 我 们 之 前 讨论 的 不 太 符 合 。 
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表 2-11 UserCF 和 ltemCF 优 缺点 的 对 比 


UserCF ltemCF 


























适用 于 用 户 较 少 的 场合 ， 如 果 用 户 很 多 ， 计 算 用 户 用 于 物品 数 明显 小 于 用 户 数 的 场合 , 如 果 物 品 
相似 度 和 矩阵 代价 很 大 多 (网页) ， 计 算 物 品 相似 度 矩 阵 代价 很 大 


时 效 性 较 强 ， 用 户 个 性 化 兴趣 不 太 明 显 的 领域 长 尾 物品 丰富 ， 用 户 个 性 化 需求 强烈 的 领域 
用 户 有 新 行为 ， 不 一 定 造成 推荐 结果 的 立即 变化 用 户 有 新 行为 , 一 定 会 导致 推荐 结果 的 实时 变化 


在 新 用 户 对 很 少 的 物品 产生 行为 后 ， 不 能 立即 对 他 ”新 用 户 只 要 对 一 个 物品 产生 行为 , 就 可 以 给 他 推 
进行 个 性 化 推荐 ， 因 为 用 户 相似 度 表 是 每 隔 一 段 时 ” 荐 和 该 物品 相关 的 其 他 物品 
间 离 线 计 算 的 


新 物品 上 线 后 一 段 时 间 ， 一 旦 有 用 户 对 物品 产生 行 ”但 没有 办 法 在 不 离线 更 新 物品 相似 度 表 的 情况 
为 ， 就 可 以 将 新 物品 推荐 给 和 对 它 产生 行为 的 用 户 ”下 将 新 物品 推荐 给 用 户 
兴趣 相似 的 其 他 用 户 


很 难 提供 令 用 户 信服 的 推荐 解释 利用 用 户 的 历史 行为 给 用 户 做 推荐 解释 , 可 以 令 
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图 2-13 ”UserCF 和 ItemCF 算 法 在 不 同 K 值 下 的 召回 率 曲线 
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图 2-14 UserCF 和 ItemCF 算 法 在 不 同 K 值 下 的 覆盖 率 曲线 






































一 他 一 UserCF ItemCF 











图 2-15 ”UserCF 和 ItemCF 算 法 在 不 同 K 值 下 的 流行 度 曲 线 


首先 要 指出 的 是 , 离线 实验 的 性 能 在 选择 推荐 算法 时 并 不 起 决定 作用 。 首先 应 该 满足 产品 的 
需求 ， 比 如 如 果 需 要 提供 推荐 解释 , 那么 可 能 得 选择 ItemCF 算 法 。 其 次 , 需要 看 实现 代价 ， 比 如 
若 用 户 太 多 , 很 难 计算 用 户 相似 度 和 矩阵 ， 这 个 时 候 可 能 不 得 不 抛弃 UserCF 算 法 。 最 后 ， 离 线 指标 
和 点 击 率 等 在 线 指标 不 一 定 成 正比 。 而 且 , 这 里 对 比 的 是 最 原始 的 UserCF 和 ItemCF 算 法 , 这 两 种 
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算法 都 可 以 进行 各 种 各 样 的 改进 。 一般 来 说 , 这 两 种 算法 经 过 优化 后 ,最 终 得 到 的 离线 性 能 是 近 


似 的 。 
下 一 节 将 分 析 为 什么 原始 ItemCF 算 法 的 覆盖 率 和 新 颖 度 都 不 高 。 
哈 利 波 特 问题 








亚马逊 网 的 研究 人 员 在 设计 ItemCF 算 法 之 初 发 现 ItemCF 算 法 计算 出 的 图 书 相关 表 存 在 一 个 


问题 ， 就 是 很 多 书 都 和 《 哈 利 波 特 》 相 关 。 "也 就 是 说 ， 购 买 任何 一 本 书 的 人 似乎 都 会 购买 《 哈 
利 波 特 》 后 来 他 们 研究 发 现 ， 主 要 是 因为 《 哈 利 波 特 》 太 热门 了 ， 确 实 是 购买 任何 一 本 书 的 人 











几乎 都 会 购买 它 。 
回顾 一 下 ItemCF 计 算 物 品 相似 度 的 经 典 公 式 : 
_ INONNO) 
MONO 





前 面 说 过 ， 如 果 j 非 常 热门 ,那么 上 面 公 式 的 分 子 |NCmNC7)| 就 会 越 来 越 接近 |NC]| 。 尽 
管 上 面 的 公式 分 母 已 经 考虑 到 也 j 的 流行 度 , 但 在 实际 应 用 中 ， 热 门 的 /仍然 会 获得 比较 大 的 相 
似 度 。 

哈 利 波 特 问题 有 几 种 解决 方案 。 

第 一 种 是 最 容易 想到 的 ， 我 们 可 以 在 分 母 上 加 大 对 热门 物品 的 惩罚 ， 比 如 采用 如 下 公式 : 

,2_INONNO)| 
NGO| “IN 

其 中 we [0.5,1] 。 通 过 提高 a， 就 可 以 惩罚 热门 的 j。 

表 2-12 给 出 了 选择 不 同 的 a 惩罚 热门 物品 后 ，ItemCF 算 法 的 推荐 性 能 。 这 里 ， 如 果 a = 0.5 就 
是 标准 的 ItemCF 算 法 。 从 离线 实验 结果 可 以 看 到 ,a 只 有 在 取 值 为 0.5 时 才 会 导致 最 高 的 准确 率 和 
召回 率 ， 而 无 论 a < 0.5 或 者 a > 0.5 都 不 会 带 来 这 两 个 指标 的 提高 。 但 是 ， 如 果 看 覆盖 率 和 平均 流 
行 度 就 可 以 发 现 ，o 越 大 ， 和 覆盖 率 就 越 高 ， 并 且 结 果 的 平均 热门 程度 会 降低 。 因 此 ， 通 过 这 种 方 
法 可 以 在 适当 牺牲 准 确 率 和 召回 率 的 情况 下 显著 提升 结果 的 覆盖 率 和 新 颖 性 ( 降低 流行 度 即 提高 
了 新 颖 性 )。 










































































表 2-12 ”惩罚 流行 度 后 llemCF 的 推荐 结果 性 能 
a 准 确 率 召 回 率 覆 盖 率 平均 流行 度 
0.4 21.94% 10.60% 13.39% 7.4584 
0.S 22.28% 10.76% 18.84% 7.2545 
0.55 21.71% 10.49% 20.61% 7.1891 
0.6 20.32% 9.82% 22.78% 7.0688 
0.7 15.19% 7.34% 30.18% 6.6117 





人 参见 Greg Linden 的 博文 http://glinden.blogspot.com/2006/03/early-amazon-similarities.html。 
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不 过 ， 上 述 方法 还 不 能 彻底 地 解决 哈 利 波 特 问题 。 每 个 用 户 一 般 都 会 在 不 同 的 领域 襄 欢 一 
种 物品 。 以 电视 为 例 ， 看 新 闻 联 播 是 父辈 每 天 的 必修 课 ， 他 们 每 天 基本 就 看 新 闻 联 播 ， 而 且 每 
天 不 看 别 的 新 闻 ， 就 看 这 一 种 新 闻 。 此 外 ,他们 很 多 都 是 电视 剧 迷 ， 都 会 看 央视 一 套 8 点 的 电视 
剧 。 那 么 ， 最 终结 果 就 是 黄金 时 间 的 电视 剧 都 和 新 闻 联 播 相似 ， 而 新 闻 联 播 和 其 他 新 闻 的 相似 
度 很 低 。 

上 面 的 问题 换 句 话说 就 是 , 两 个 不 同 领域 的 最 热门 物品 之 间 往 往 具有 比较 高 的 相似 度 。 这 个 
时 候 , 仅仅 乱用 户 行为 数据 是 不 能 解决 这 个 问题 的 ,因为 用 户 的 行为 表示 这 种 物品 之 间 应 该 相似 
度 很 高 。 此 时 ,我 们 只 能 依靠 引入 物品 的 内 容 数 据 解决 这 个 问题 ， 比 如 对 不 同 领域 的 物品 降低 权 
重 等 。 这 些 就 不 是 协同 过 滤 讨 论 的 范畴 了 。 


2.5 隐语 义 模 型 


自从 Netflix Prize 比 赛 举 办 以 来 ，LFM (latent factor model ) 隐语 义 模 型 逐渐 成 为 推荐 系统 领 
域 耳 熟 能 详 的 名 词 。 其 实 该 算法 最 早 在 文本 挖掘 领域 被 提出 ， 用 于 找到 文本 的 隐 含 语义 。 相 关 的 
名 词 有 LSI、pLSA、LDA 和 Topic Model。 本 节 将 对 隐 含 语义 模型 在 Top-N 推 荐 中 的 应 用 进行 详细 
介绍 ， 并 通过 实际 的 数据 评测 该 模型 。 







































































2.5.1 基础 算法 


隐语 义 模型 是 最 近 几 年 推荐 系统 领域 最 为 热门 的 研究 话题 ， 它 的 核心 思想 是 通过 隐 含 特征 
(latent factor) 联 系 用 户 兴 趣 和 物品 。 
首先 通过 一 个 例子 来 理解 一 下 这 个 模型 。 图 2-16 展 示 了 两 个 用 户 在 豆 办 的 读书 列表 。 
从 他 们 的 阅读 列表 可 以 看 出 , 用 户 A 的 兴趣 涉及 侦探 小 说 、 科 普 图 书 以 及 一 些 计算 机 技术 书 ， 
而 用 户 B 的 兴趣 比较 集中 在 数学 和 机 絮 学 习 方面 。 
那么 如 何 给 A 和 B 推 荐 图 书 呢 ? 
口 对 于 UserCF， 首 先 需 要 找到 和 他 们 看 了 同样 书 的 其 他 用 户 ( 兴趣 相似 的 用 户 )， 然后 给 他 
们 推荐 那些 用 户 喜 欢 的 其 他 书 。 
口 对 于 ItemCF, 需要 给 他 们 推荐 和 他 们 已 经 看 的 书 相 似 的 书 ， 比 如 作者 B 看 了 很 多 关于 数据 
挖掘 的 书 ， 可 以 给 他 推荐 机 器 学 习 或 者 模式 识别 方面 的 书 。 
还 有 一 种 方法 ， 可 以 对 书 和 物品 的 兴趣 进行 分 类 。 对 于 某 个 用 户 ， 首 先 得 到 他 的 兴趣 分 类 ， 
然后 从 分 类 中 挑选 他 可 能 喜欢 的 物品 。 
总 结 一 下 ， 这 个 基于 兴趣 分 类 的 方法 大 概 需 要 解决 3 个 问题 。 
口 如 何 给 物品 进行 分 类 ? 
口 如 何 确 定 用 户 对 哪些 类 的 物品 感 兴趣 ， 以 及 感 兴趣 的 程度 ? 
口 对 于 一 个 给 定 的 类 ， 选 择 哪 些 属于 这 个 类 的 物品 推荐 给 用 户 ， 以 及 如 何 确定 这 些 物 品 
一 个 类 中 的 权重 ? 
对 于 第 一 个 问题 的 简单 解决 方案 是 找 编辑 给 物品 分 类 。 



































时 











下 


图 书 为 例 , 每 本 书 出 版 时 ,编辑 都 
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会 给 书 一 个 分 类 。 为 了 给 图 书 分 类 ， 出 版 界 普遍 遵循 中 国 图 书 分 类 法 "。 但 是 ， 即 使 有 很 系统 的 


分 类 体系 ， 编 辑 给 出 的 分 类 仍然 具有 以 下 缺点 。 

















截取 自 豆 办， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 2-16 ”两 个 用 户 在 豆 办 的 读书 列表 











口 编辑 的 意见 不 能 代表 各 种 用 户 的 意见 。 比 如 ,对 于 《具体 数学 》 应 该 属于 什么 分 类 ， 有 
人 认为 应 该 属于 数学 ， 有 些 人 认为 应 该 属于 计算 机 。 从 内 容 看 ， 这 本 书 是 关于 数学 的 ， 
但 从 用 户 看 ， 这 本 书 的 读 大 部 分 是 做 计算 机 出 身 的 。 编 辑 的 分 类 大 部 分 是 从 书 的 内 容 出 





发 ， 而 不 是 从 书 的 读者 群 出 发 。 











口 编辑 很 难 控 制 分 类 的 粒度 。 我 们 知道 分 类 是 有 不 同 粒度 的 ,《 数 据 挖掘 导论 》 在 粗 粒 度 的 
分 类 中 可 能 属于 计算 机 技术 ,但 在 细 粒 度 的 分 类 中 可 能 属于 数据 挖掘 。 对 于 不 同 的 用 户 ， 
我 们 可 能 需要 不 同 的 粒度 。 比 如 对 于 一 位 初学 者 ， 我 们 粗 粒度 地 给 他 做 推荐 就 可 以 了 ， 
而 对 于 一 名 资深 研究 人 员 ， 我 们 就 需要 深入 到 他 的 很 细 分 的 领域 给 他 做 个 性 化 推荐 。 

















口 编辑 很 难 给 一 个 物品 多 个 分 类 。 有 的 书 不 仅 属于 一 个 类 ， 而 是 可 能 
口 编辑 很 难 给 出 多 维度 的 分 类 。 我 们 知道 ,分 类 是 可 以 有 很 多 维度 的 
按照 译 者 分 类 、 按 照 出 版 社 分 类 。 比 如 不 同 的 用 户 看 《具体 数学 》 








GD 参见 http://kkb.hhu.edu.cn/ztfl/zhongtufenlei.htm。 
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属于 很 多 的 类 。 


， 比 如 按照 作者 分 类 、 


原因 可 能 不 同 ， 有 些 
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人 是 因为 它 是 数学 方面 的 书 所 以 才 看 的 ， 而 有 些 人 是 因为 它 是 大 师 Knuth 的 著作 所 以 才 去 
看 ， 因 此 在 不 同人 的 眼中 这 本 书 属于 不 同 的 分 类 。 

口 编辑 很 难 决定 一 个 物品 在 某 一 个 分 类 中 的 权重 。 比 如 编辑 可 以 很 容易 地 决定 《数据 挖 气 
导论 》 属 于 数据 挖 据 类 图 书 , 但 这 本 书 在 这 类 书 中 的 定位 是 什么 样 的 ， 编 辑 就 很 难 给 出 
一 个 准确 的 数字 来 表示 。 

为 了 解决 上 面 的 问题 , 研究 人 员 提 出 : 为 什么 我 们 不 从 数据 出 发 ， 自 动 地 找到 那些 类 ， 然 后 
进行 个 性 化 推荐 ? 于 是 ， 隐 含 语 义 分 析 技 术 ( latent variable analysis ) 出 现 了 。 隐 含 语义 分 析 技 术 
因为 采取 基于 用 户 行为 统计 的 自动 聚 类 ， 较 好 地 解决 了 上 面 提出 的 5 个 问题 。 

口 编辑 的 意见 不 能 代表 各 种 用 户 的 意见 ， 但 隐 含 语义 分 析 技 术 的 分 类 来 自 对 用 户 行为 的 统 

计 ， 代 表 了 用 户 对 物品 分 类 的 看 法 。 隐 含 语义 分 析 技 术 和 ItemCF 在 物品 分 类 方面 的 思想 
类 似 ， 如 果 两 个 物品 被 很 多 用 户 同时 喜欢 ， 那 么 这 两 个 物品 就 很 有 可 能 属于 同一 个 类 。 

口 编辑 很 难 控制 分 类 的 粒度 ， 但 隐 含 语义 分 析 技 术 允 许 我 们 指定 最 终 有 多 少 个 分 类 ， 这 个 

数字 越 大 ， 分 类 的 粒度 就 会 越 细 ， 反 正 分 类 粒度 就 越 粗 。 

口 编辑 很 难 给 一 个 物品 多 个 分 类 ， 但 隐 含 语义 分 析 技 术 会 计算 出 物品 属于 每 个 类 的 权重 ， 

因此 每 个 物品 都 不 是 便 性 地 被 分 到 某 一 个 类 中 。 

口 编辑 很 难 给 出 多 维度 的 分 类 ， 但 隐 含 语义 分 析 技 术 给 出 的 每 个 分 类 都 不 是 同一 个 维度 的 ， 
它 是 基于 用 户 的 共同 兴趣 计算 出 来 的 ， 如 果 用 户 的 共同 兴趣 是 某 一 个 维度 ， 那 么 LFM 给 
出 的 类 也 是 相同 的 维度 。 

口 编辑 很 难 决定 一 个 物品 在 某 一 个 分 类 中 的 权重 ,但 隐 含 语义 分 析 技 术 可 以 通过 统计 用 户 
行为 决定 物品 在 每 个 类 中 的 权重 ， 如 果 喜 欢 某 个 类 的 用 户 都 会 喜欢 某 个 物品 ， 那 么 这 个 
物品 在 这 个 类 中 的 权重 就 可 能 比较 高 。 

隐 含 语义 分 析 技 术 从 诞生 到 今天 产生 了 很 多 著名 的 模型 和 方法 , 其 中 和 该 技术 相关 且 耳 熟 能 

详 的 名 词 有 pLSA、LDA 、 隐 含 类 别 模型 ( latent class model )、 隐 含 主题 模型 ( latent topic model )、 

和 矩阵 分 解 ( matrix factorization )。 这 些 技术 和 方法 在 本 质 上 是 相通 的 ， 其 中 很 多 方法 都 可 以 用 于 

个 性 化 推荐 系统 。 本 章 将 以 LFM 为 例 介绍 隐 含 语义 分 析 技 术 在 推荐 系统 中 的 应 用 。 

LFM 通 过 如 下 公式 计算 用 户 u 对 物品 的 兴 






















































































































































































F 
Preference(u,i) =7, = prq; = 2 p,qix 
/31 


这 个 公式 中 p,, 和 g,; 是 模型 的 参数 ， 其 中 p, ,度量 了 用 户 u 的 兴趣 和 第 个 隐 类 的 关系 ， 而 
qi 度量 了 第 k 个 隐 类 和 物品 i 之 间 的 关系 。 那 么 ， 下 面 的 问题 就 是 如 何 计算 这 两 个 参数 。 

对 最 优化 理论 或 者 机 器 学 习 有 所 了 解 的 读者 , 可 能 对 如 何 计算 这 两 个 参数 都 比较 清楚 。 这 两 
个 参数 是 从 数据 集中 计算 出 来 的 。 要 计算 这 两 个 参数 ， 需 要 一 个 训练 集 ， 对 于 每 个 用 户 u， 训 练 
集 里 都 包含 了 用 户 u 喜 欢 的 物品 和 不 感 兴趣 的 物品 ， 通 过 学 习 这 个 数据 集 ， 就 可 以 获得 上 面 的 模 
型 参数 。 

推荐 系统 的 用 户 行为 分 为 显 性 反馈 和 隐 性 反馈 。 LFM 在 显 性 反馈 数据 ( 也 就 是 评分 数据 ) 上 
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解决 评分 预测 问题 并 达到 了 很 好 的 精度 。 不 过 本 童 主要 讨论 的 是 隐 性 反馈 数据 集 , 这 种 数据 集 的 
特点 是 只 有 正 样 本 ( 用 户 喜 欢 什么 物品 )， 而 没有 负 样 本 ( 用 户 对 什么 物品 不 感 兴趣 )。 
那么 ， 在 隐 性 反馈 数据 集 上 应 用 LFM 解 决 TopN 推 荐 的 第 一 个 关键 问题 就 是 如 何 给 每 个 用 户 
生成 负 样 本 。 
对 于 这 个 问题 ，Rong Pan 在 文章 "中 进行 了 深入 探讨 。 他 对 比 了 如 下 几 种 方法 。 
口 对 于 一 个 用 户 ， 用 他 所 有 没有 过 行为 的 物品 作为 负 样 本 。 
口 对 于 一 个 用 户 ， 从 他 没有 过 行为 的 物品 中 均匀 采样 出 一 些 物品 作为 负 样 本 。 
口 对 于 一 个 用 户 ， 从 他 没有 过 行为 的 物品 中 采样 出 一 些 物 品 作为 负 样本 ， 但 采样 时 ， 保 证 
每 个 用 户 的 正 负 样 本 数目 相当 。 
口 对 于 一 个 用 户 ， 从 他 没有 过 行为 的 物品 中 采样 出 一 些 物 品 作为 负 样本 ， 但 采样 时 ， 偏 重 
采样 不 热门 的 物品 。 
对 于 第 一 各 方法, 它 的 明显 缺点 是 负 样 本 太 多 , 正 负 样 本 数目 相差 悬殊 ,因而 计算 复杂 度 很 
高 ， 最 终结 果 的 精度 也 很 差 。 对 于 另外 3 种 方法 ，Rong Pan 在 文章 中 表示 第 三 种 好 于 第 二 种 ， 而 
第 二 种 好 于 第 四 种 。 
后 来 ， 通 过 2011 年 的 KDD Cup 的 Yahoo! Music 推 荐 系统 比赛 ， 我 们 发 现 对 负 样 本 采样 时 应 该 
遵循 以 下 原则 。 
口 对 每 个 用 户 ， 要 保证 正 负 样 本 的 平衡 ( 数目 相似 )。 
口 对 每 个 用 户 采 样 负 样 本 时 ， 要 选取 那些 很 热门 ， 而 用 户 却 没 有 行为 的 物品 。 
一 般 认为 , 很 热门 而 用 户 却 没 有 行为 更 加 代表 用 户 对 这 个 物品 不 感 兴趣 。 因 为 对 于 冷门 的 物 
品 ， 用 户 可 能 是 压根 没 在 网 站 中 发 现 这 个 物品 ， 所 以 谈 不 上 是 否 感 兴趣 。 
下 面 的 Python 代 码 实 现 了 负 样 本 采样 过 程 ”: 
def RandomSelectNegativeSample (self, items): 
ret = dict() 
for i in items.keys(): 
下 各 世人 下 “和 :本 
n= 人 0 
for i in range(0, len(items) * 3): 
item = items_ pooll[lrandom.randint(0, len(items pool) - 1)] 
if. item in rets 
continue 
ret[item] = 0 
n+=1 
if n > len(items): 


break 
return ret 


在 上 面 的 代码 中 ，items_pool 维 护 了 候选 物品 的 列表 ， 在 这 个 列表 中 ,物品 出 现 的 次 数 和 
物品 :的 流行 度 成 正比 。items 是 一 个 aict， 它 维护 了 用 户 已 经 有 过 行为 的 物品 的 集合 。 因 此 ， 












































GD 参见 “One-Class Collaborative Filtering”。 
@@ 代码 第 6 行将 范围 上 限 设 为 len (items) * 3， 主 要 是 为 保证 正 、 负 样本 数量 接近 。 
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上 面 的 代码 按照 物品 的 流行 度 采样 出 了 那些 热门 的 、 但 用 户 却 没 有 过 行为 的 物品 。 经 过 采样 ， 可 
以 得 到 一 个 用 户 -物品 集 玉 = {(w,i)} ,其 中 如 果 (w, 让 是 正 样 本 , 则 有 x =1, 否则 有 x, =0 。 然 后 ， 
需要 优化 如 下 的 损失 函数 来 找到 最 合适 的 参数 p 和 gq: 


a 
C= > (wx 一 六) = pa Ce + 


(uwiek (ueKk 








pil +4lall 























这 里 ，4p, 上 +a 是 用 来 防止 过 拟 合 的 正则 化 项 ，4 可 以 通过 实验 获得 。 要 最 小 化 上 而 
的 损失 函数 ， 可 以 利用 一 种 称 为 随机 梯度 下 降 法 "的 算法 。 该 算法 是 最 优化 理论 里 最 基础 的 优化 
算法 ， 它 首先 通过 求 参 数 的 偏 导数 找到 最 速 下 降 方向 ， 然 后 通过 迁 代 法 不 断 地 优化 参数 。 下 面 介 
绍 优化 方法 的 数学 推导 。 

上 面 定义 的 损失 函数 里 有 两 组 参数 pu 和 gx， 随机 梯度 下 降 法 需要 首先 对 它们 分 别 求 偏 导数 ， 
可 以 得 到 














Qe 3 一 29A 十 24Pw 

op, 

人 了 2 村 21qn 

0g 
然后 ， 根 据 随 机 梯度 下 降 法 ,需要 将 参数 沿 着 最 速 下 降 方 向 问 前 推进 ， 因 此 可 以 得 到 如 下 递 推 
公式 : 


Pu = Pi + A(qix — AP) 
qi = qx + A( pur — Aqi) 
其 中 ，a 是 学 习 速 率 (learning rate )， 它 的 选取 需要 通过 反复 实验 获得 。 
下 面 的 Python 代 码 实 现 了 这 一 优化 过 程 : 


def LatentFactorModel (user_items, F, N, alpha, lambda): 
[P, Q] = InitModel (user_items, F) 
for step in range(0,N): 
for user, items in user_ items.items(): 
samples = RandSelectNegativeSamples (items) 
for item, rui in samples.items(): 
eui = rui - Predict (user, item) 
for f in range(0, F): 
Pluser][f] += alpha * (eui * QO[item] [fl - \ 
lambda * Pl[luser][f£]) 
Q[litem] [E] += alpha * (eui * Pl[luser][f] - \ 
lambda * Qlitem][f£]) 








alpha *= 0.9 


def Recommend (user, P, 0Q): 
rank = dict() 
for f, puf in Pluser].items(): 
for i, qfi in QI[f].items(): 





GD 参见 http://en.wikipedia.org/wiki/Stochastic_gradient_descent。 
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1 人 Ef Ot. in ank: 


return rank 


rank[il] 


+= puf * qfi 





我 们 同样 通过 离线 实验 评测 LFM 的 性 能 。 首 先 ， 我 们 在 MovieLens 数 据 集 上 用 LFM 计 算出 用 
户 兴趣 向 量 p 和 物品 向 量 g， 然 后 对 于 每 个 隐 类 找 出 权重 最 大 的 物品 。 如 表 2-13 所 示 ， 表 中 展示 了 
4 个 隐 类 中 排名 最 高 ( qx 最 大 ) 的 一 些 电 影 。 结 果 表明 ， 每 一 类 的 电影 都 是 合理 的 ， 都 代表 了 一 
类 用 户 喜 欢 看 的 电影 。 从 而 说 明 LFM 确 实 可 以 实现 通过 用 户 行为 将 物品 聚 类 的 功能 。 


表 2-13 ”MovieLens 数 据 集中 根据 LFM 计 算出 的 不 同 隐 类 中 权重 最 高 的 物品 





1 科幻 、 惊 悚 ) 


3 犯罪 ) 


4 家 庭 ) 


5《〈 恺 怖 、 惊 悚 ) 





《隐形 人 》 (The Invisible 
Man, 1933) 








《大 白沙 》 (Jaws，1975) 











《101 真 狗 》(101 Dalmatians， 
1996) 


《女巫 布莱尔 》(The Blair 
Witch Project, 1999) 





《科学 怪人 大 战 狼人 》 
( Frankenstein Meets the 
Wolf Man, 1943) 


《致命 武器 》 (Lethal Weapon， 
1987) 


《 回 到 未 来 》( 了 Back to the 
Future, 1985) 


《地 狱 来 的 房客 》 (Pacific 
Heights，1990) 














《 哥 斯 拉 》 (Godzilla, 1954) 





《全 面 回 忆 》 (Total Recall， 
1990) 


《 士 拨 鼠 之 日 》(Groundhog 
Day, 1993) 





《 异 灵 骇 客 2 之 恶 灵 归 来 》 
( Stir of Echoes: The 


Homecoming，2007) 








《星球 大 战 3: 武士 复仇 》 
( Star Wars: Episode VI - 
Return of the Jedi, 1983) 


《落水 狗 》 (Reservoir Dogs， 
1992) 


《泰山 》 (Tarzan，2003) 


《 航 越 地 平 线 》 (Dead 
Calm, 1989) 








《终结 者 》 (The Terminator， 
1984) 


《 忠 奸 人 》 (Donnie Brasco， 
1997) 





《 猫 儿 历险 记 》 (The 
Aristocats，1970 ) 


《幻象 》 (Phantasm ，1979) 





《 魔 童 村 》 (Village of the 
Damned, 1995) 


《亡命 天 涯 》 (The Fugitive， 
1993) 


《森林 王子 2》 (The Jungle 
Book 2，2003) 


《 断 头 谷 》(Sleepy Hollow， 
1999) 





《异形 》(Alien，1979) 


《 夺 宝 奇兵 3》 ( Indiana 
Jones and the Last Crusade， 
1989 ) 





《 当 哈 利 遇 到 莎 莉 》(When 
Harry Met Sally:… ,1989) 





《老师 不 是 人 》 
Faculty, 1998) 


( The 





《异形 2》 (Aliens，1986) 


《威胁 2 :社会 》 (Menace II 
Society, 1993) 


《 蚁 哥 正 传 》(Antz，1998) 





《苍蝇 》 (The Fly，1958) 





《天 魔 续集 》 
Omen I，1978) 


( Damien: 


《 辣 手 神探 》 (Lashou 


shentan, 1992) 


《小 姐 与 流浪 汉 》 (Lady 
and the Tramp, 1955) 


《和 鬼 问 神 》 (The Amityville 
Horror, 1979) 





《魔鬼 怪 婴 》 (Rosemary’s 
Baby, 1968) 

















《真实 罗曼 史 》 (True 


Romance, 1993) 





《飞天 法 宝 》 (Flubber， 
1997) 








《深渊 》 (The Abyss，1989) 


其 次 ， 我 们 通过 实验 对 比 了 LFM 在 TopN 推 荐 中 的 性 能 。 在 LFM 中 ， 重 要 的 参数 有 4 个 : 














口 隐 特 征 的 个 数 F; 
口 学 习 速 率 alpha; 
口 正则 化 参数 1ambda; 
口 负 样 本 / 正 样本 比例 ratio。 
通过 实验 发 现 ，ratio 参 数 对 LFM 的 性 能 影响 最 大 。 因 此 ， 固 定 F=100、alpha=0.02、 
lambda=0.01， 然 后 研究 负 样 本 / 正 样 本 比例 ratio 对 推荐 结果 性 能 的 影响 。 
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如 表 2-14 所 示 ， 随 着 负 样 本 数目 的 增加 ，LFM 的 准确 率 和 召回 率 有 明显 提高 。 不 过 当 
ratio>10 以 后 ， 准 确 率 和 召回 率 基本 就 比较 稳定 了 。 同 时 ， 随 着 负 样 本 数目 的 增加 ， 有 覆盖 率 不 
断 降低 ， 而 推荐 结果 的 流行 度 不 断 增加 ,说 明 ratio 参 数控 制 了 推荐 算法 发 气 长 尾 的 能 力 。 如 果 
将 LFM 的 结果 与 表 2-6、 表 2-9、 表 2-10 中 ItemCF 和 UserCF 算 法 的 性 能 相 比 ， 可 以 发 现 LFM 在 所 有 
指标 上 都 优 于 UserCF 和 ItemCF。 当 然 ， 这 只 是 在 MovieLens 一 个 数据 集 上 的 结果 ， 我 们 也 发 现 ， 
当 数 据 集 非常 稀 玖 时 ，LFM 的 性 能 会 明显 下 降 ， 其 至 不 如 UserCF 和 ItemCF 的 性 能 。 关 于 这 一 点 
读者 可 以 通过 实验 自己 研究 。 


表 2-14 Netflix 数据 集中 LFM 算 法 在 不 同 F 参 数 下 的 性 能 





























ratio 准确 率 召 回 率 覆 盖 率 流 行 度 
1 21.74% 10.50% 51.19% 6.5140 
2 24.32% 11.75% 53.17% 6.5458 
3 25.66% 12.39% 50.41% 6.6480 
5 26.94% 13.01% 44.25% 6.7899 
10 27.74% 13.40% 33.87% 6.9552 
20 27.37% 13.22% 24.30% 7.1025 


2.5.2 ”基于 LFM 的 实际 系统 的 例子 


雅虎 的 研究 人 员 公布 过 一 个 使 用 LFM 进 行 雅 虎 首页 个 性 化 设计 的 方案 "。 本 节 将 简单 介绍 他 
们 的 设计 并 讨论 他 们 的 设计 方案 。 

图 2-17 展 示 了 雅虎 首页 的 界面 。 该 页 面包 括 不 同 的 模块 ， 比 如 左 侧 的 分 类 导航 列表 、 中 间 的 
热门 新 闻 列 表 、 右 侧 的 最 近 热 门 话题 列 表 。 雅 虎 的 研究 人 员 认为 这 3 个 模块 都 可 以 进行 一 定 的 个 
性 化 ， 可 以 根据 用 户 的 兴趣 给 他 们 展示 不 同 的 内 容 。 

雅虎 的 研究 人 员 以 CTR 作 为 优化 目标 ， 利 用 LFM 来 预测 用 户 是 否 会 单 击 一 个 链接 。 为 此 ， 
他 们 将 用 户 历 史上 对 首页 上 链接 的 行为 记录 作为 训练 集 。 其 中 ， 如 有 果 用 户 u 单 击 过 链接 1， 那么 
就 定义 (wu, 站 是 正 样本 ， 即 r= 1。 如 果 链 接 i 展 示 给 用 户 u， 但 用 户 u 从 来 没有 单 击 过 ， 那 么 就 定 
义 (2 六 是 负 样 本 ， 即 六 =-1。 然 后 ， 雅 虎 的 研究 人 员 利 用 前 文 提 到 的 LFM 预 测 用 户 是 否 会 单 击 
链接 : 











































































































入 下 
Fi 寺 pp, 3 qd; 
当然 ， 雅 虎 的 研究 人 员 在 上 面 的 模型 基础 上 进行 了 一 些 修改 ， 利 用 了 一 些 改进 的 LFM 模 型 。 
这 些 模型 主要 来 自 Netflix Prize 比 赛 ， 因 此 我 们 会 在 第 8 章 详 细 讨 论 这 些 模 型 。 








GD 参见 Bee-Chung Chen、Deepak Agarwal、Pradheep Elango 和 Raghu Ramakrishnan 的 “Latent Factor Models for Web 


Recommender Systems” 。 
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截取 自 雅 虎 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 2-17 雅虎 首页 的 界面 


但 是 , LFM 模 型 在 实际 使 用 中 有 一 个 困难 , 那 就 是 它 很 难 实现 实时 的 推荐 。 经 典 的 LFM 模 型 
每 次 训练 时 都 需要 扫描 所 有 的 用 户 行为 记录 ， 这 样 才能 计算 出 用 户 隐 类 向 量 (p, ) 和 物品 隐 类 向 
量 (gq; )。 而 且 LFM 的 训练 需要 在 用 户 行为 记录 上 反复 迭代 才能 获得 比较 好 的 性 能 。 因 此 ，LFM 
的 每 次 训练 都 很 耗 时 ， 一 般 在 实际 应 用 中 只 能 每 天 训练 一 次 ， 并 且 计 算出 所 有 用 户 的 推荐 结果 。 
从 而 LFM 模 型 不 能 因为 用 户 行为 的 变化 实时 地 调整 推荐 结果 来 满足 用 户 最 近 的 行为 。 在 新 闻 推 荐 
中 , 冷 启 动 问题 非常 明显 。 每 天 都 会 有 大 量 新 的 新 闻 。 这 些 新 闻 会 在 很 短 的 时 间 内 获得 很 多 人 的 
关注 , 但 也 会 在 很 短 的 时 间 内 失去 用 户 的 关注 。 因 此 ,它们 的 生命 周期 很 短 ， 而 推荐 算法 需要 在 
它们 短暂 的 生命 周期 内 就 将 其 推荐 给 对 它们 感 兴趣 的 用 户 。 所 以 ,实时 性 在 雅虎 的 首页 个 性 化 推 
荐 系统 中 非常 重要 。 为 了 解决 传统 LFM 不 能 实时 化 ,而 产品 需要 实时 性 的 矛盾 , 雅虎 的 研究 人 员 
提出 了 一 个 解决 方案 。 

他 们 的 解决 方案 分 为 两 个 部 分 。 首 先 ， 他 们 利用 新 闻 链 接 的 内 容 属 性 ( 关键 词 、 类 别 等 ) 得 
到 链接 i 的 内 容 特 征 向 量 y;。 其 次 ， 他 们 会 实时 地 收集 用 户 对 链接 的 行为 ， 并且 用 这 些 数据 得 到 链 
接 i 的 隐 特 征 向 量 q;。 然 后 ， 他 们 会 利用 如 下 公式 预测 用 户 u 是 否 会 单 击 链接 i: 

ri =x "+p 9 

其 中 ，7? 是 根据 物品 的 内 容 属性 直接 生成 的 ，xw 是 用 户 u 对 内 容 特征 /的 兴趣 程度 ， 用 户 向 量 
Xu 可 以 根据 历史 行为 记录 获得 ， 而 且 每 天 只 需要 计算 一 次 。 而 p,、g; 是 根据 实时 拿 到 的 用 户 最 近 
几 小 时 的 行为 训练 LFM 获 得 的 。 因 此 ， 对 于 一 个 新 加 入 的 物品 1， 可 以 通过 叉 yy, 估计 用 户 u 对 物 
品 i 的 兴趣 ， 然 后 经 过 几 个 小 时 后 ， 就 可 以 通过 pr .9g, 得 到 更 加 准确 的 预测 值 。 

上 面 的 讨论 只 是 简单 前 述 了 雅虎 所 用 的 方法 ， 关 于 雅虎 具体 的 方法 可 以 参考 他 们 的 报告 。 
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2.5.3 ”LFM 和 基于 邻 域 的 方法 的 比较 


LFM 是 一 种 基于 机 器 学 习 的 方法 , 具有 比较 好 的 理论 基础 。 这 个 方法 和 基于 邻 域 的 方法 ( 比 

如 UserCF 、ItemCF ) 相 比 ， 各 有 优 缺 点 。 下 面 将 从 不 同 的 方面 对 比 LEM 和 基于 邻 域 的 方法 。 

口 理论 基础 LFM 具 有 比较 好 的 理论 基础 ， 它 是 一 种 学 习 方 法 ， 通 过 优化 一 个 设 定 的 指标 

建立 最 优 的 模型 。 基 于 邻 域 的 方法 更 多 的 是 一 种 基于 统计 的 方法 ， 并 没有 学 习 过 程 。 

口 离线 计算 的 空间 复杂 度 ” 基 于 邻 域 的 方法 需要 维护 一 张 离线 的 相关 表 。 在 离线 计算 相关 

表 的 过 程 中 ， 如 果 用 户 /物品 数 很 多 ， 将 会 占据 很 大 的 内 存 。 假 设 有 M 个 用 户 和 N 个 物品 ， 

在 计算 相关 表 的 过 程 中 ， 我 们 可 能 会 获得 一 张 比较 稠密 的 临时 相关 表 ( 尽管 最 终 我 们 对 

每 个 物品 只 保留 K 个 最 相关 的 物品 ， 但 在 中 间 计 算 过 程 中 稠密 的 相关 表 是 不 可 避免 的 )， 

那么 假设 是 用 户 相 关 表 ， 则 需要 OM*M) 的 空间 ， 而 对 于 物品 相关 表 ， 则 需要 O(N*N) 的 空 

间 。 而 LFM 在 建 模 过 程 中 ,如 果 是 个 隐 类 , 那么 它 需 要 的 存储 空间 是 O(F*(M+N)), 这 在 

M 和 NN 很 大 时 可 以 很 好 地 节省 离线 计算 的 内 存 。 在 Netflix Prize 中 ， 因 为 用 户 数 很 庞大 

(40 多 万 )， 很 少 有 人 使 用 UserCF 算 法 〈 据说 需要 30 GB 左右 的 内 存 )， 而 LFM 由 于 大 量 节 

省 了 训练 过 程 中 的 内 存 〈 只 需要 4 GB )， 从 而 成 为 Netflix Prize 中 最 流行 的 算法 。 

离线 计算 的 时 间 复 杂 度 假设 有 M 个 用 户 、N 个 物品 、K 条 用 户 对 物品 的 行为 记录 。 那 么 ， 

UserCF 计 算 用 户 相 关 表 的 时 间 复 杂 度 是 O(N * (K/N)^2)， 而 ItemCF 计 算 物 品 相 关 表 的 时 间 

复杂 度 是 OOM*(K/M)^2)。 而 对 于 LFM， 如 果 用 F 个 隐 类 ， 夫 代 S 次 ， 那 么 它 的 计算 复杂 度 

是 O(K * 已 * 5S)。 那 么 ， 如 果 K/N > FxS， 则 代表 UserCF 的 时 间 复 杂 度 低 于 LFM， 如 果 

K/M>F*S， 则 说 明 ItemCF 的 时 间 复 杂 度 低 于 LFM。 在 一 般 情况 下 ，LFM 的 时 间 复 杂 度 要 

稍微 高 于 UserCF 和 ItemCF， 这 主要 是 因为 该 算法 需要 多 次 迭代 。 但 总 体 上 ， 这 两 种 算法 

在 时 间 复 杂 度 上 没有 质 的 差别 。 

口 在 线 实 时 推荐 ”UserCF 和 ItemCF 在 线 服务 算法 需要 将 相关 表 缓 存在 内 存 中 ， 然 后 可 以 在 
线 进行 实时 的 预测 。 以 ItemCF 算 法 为 例 ， 一 旦 用 户 喜 欢 了 新 的 物品 ， 就 可 以 通过 查询 内 
存 中 的 相关 表 将 和 该 物品 相似 的 其 他 物品 推荐 给 用 户 。 因 此 ， 一旦 用 户 有 了 新 的 行为 ， 
而 且 该 行为 被 实时 地 记录 到 后 台 的 数据 库 系 统 中 , 他 的 推荐 列表 就 会 发 生变 化 。 而 从 LFM 
的 预测 公式 可 以 看 到 ，LEFM 在 给 用 户 生成 推荐 列表 时 ， 需 要 计算 用 户 对 所 有 物品 的 兴 
权重 ， 然 后 排名 ， 返 回 权重 最 大 的 N 个 物品 。 那 么 ， 在 物品 数 很 多 时 ， 这 一 过 程 的 时 间 
复杂 度 非常 高 ， 可 达 O(CM*N*F)。 因 此 ，LFM 不 太 适 合用 于 物品 数 非常 庞大 的 系统 ， 如 

果 要 用 ， 我 们 也 需要 一 个 比较 快 的 算法 给 用 户 先 计算 一 个 比较 小 的 候选 列表 ， 然 后 再 用 
LFM 重 新 排名 。 男 一 方面 ，LFM 在 生成 一 个 用 户 推荐 列表 时 速度 太 慢 ， 因 此 不 能 在 线 实 
时 计算 , 而 需要 离线 将 所 有 用 户 的 推荐 结果 事先 计算 好 存储 在 数据 库 中 。 因 此 ，LFM 不 
能 进行 在 线 实时 推荐 , 也 就 是 说 , 当 用 户 有 了 新 的 行为 后 , 他 的 推荐 列表 不 会 发 生变 化 。 

口 推荐 解释 ItemCF 算 法 支持 很 好 的 推荐 解释 ， 它 可 以 利用 用 户 的 历史 行为 解释 推荐 结果 。 
但 LFM 无 法 提供 这 样 的 解释 , 它 计算 出 的 隐 类 虽然 在 语义 上 确实 代表 了 一 类 兴趣 和 物品 ， 
却 很 难 用 自然 语言 描述 并 生成 解释 展现 给 用 户 。 
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2.6 基于 图 的 模型 


用 户 行为 很 容易 用 二 分 图 表示 , 因此 很 多 图 的 算法 都 可 以 用 到 推荐 系统 中 。 本 节 将 重点 讨论 
如 何 将 用 户 行为 用 图 表示 ， 并 利用 图 的 算法 给 用 户 进行 个 性 化 推荐 。 


2.6.1 用 户 行 为 数据 的 二 分 图 表示 


基于 图 的 模型 ( graph-based model ) 是 推荐 系统 中 的 重要 内 容 。 其 实 ， 很 多 研究 人 员 把 基于 
邻 域 的 模型 也 称 为 基于 图 的 模型 ， 因 为 可 以 把 基于 邻 域 的 模型 看 做 基于 图 的 模型 的 简单 形式 。 




























































































在 研究 基于 图 的 模型 之 前 , 首先 需要 将 用 户 行为 数据 表示 成 图 的 形式 。 本 童 讨论 的 用 户 行为 
数据 是 由 一 系列 二 元 组 组 成 的 ， 其 中 每 个 二 元 组 (w, ?表示 用 户 u 对 物品 产生 过 行为 。 这 种 数据 集 





很 容易 用 一 个 二 分 图 "表示 。 





令 G (了 VV, ) 表示 用 户 物品 二 分 图 , 其 中 大 = 琅琅 由 用 户 顶 点 集合 到 和 物品 顶点 集合 万 


























组 成 。 对 于 数据 集中 每 一 个 二 元 组 (u, i)， 图 中 都 有 一 套 对 应 的 边 e(v,,v,) ， 其 中 ve TV 是 用 户 u 
对 应 的 顶点 ，v, e 人 是 物品 1 对 应 的 顶点 。 图 2-18 是 一 个 简单 的 用 户 物 品 二 分 图 模型 ,其 中 圆 形 节 




















点 代表 用 户 , 方形 节点 代表 物品 ， 圆 形 节 点 和 方形 节点 之 间 的 边 代表 用 户 对 物品 的 行为 。 比 如 图 


中 用 户 节点 A 和 物品 节点 a、b 


、d 相 连 , 说 明 用 户 A 对 物品 4a、b、d 产 生 过 行为 。 
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图 2-18 ”用 户 物品 二 分 图 模型 








2.6.2 ”基于 图 的 推荐 算法 





将 用 户 行为 表示 为 二 分 图 








模型 后 ,下面 的 任务 就 是 在 二 分 图 上 给 用 户 进 行 个 性 化 推荐 。 如果 








将 个 性 化 推荐 算法 放 到 二 分 图 模型 上 ， 那 么 给 用 户 u 推 荐 物品 的 任务 就 可 以 转化 为 度量 用 户 顶 点 
Ww 和 与 % 没 有 边 直 接 相连 的 物品 节点 在 图 上 的 相关 性 ， 相 关 性 越 高 的 物品 在 推荐 列表 中 的 权重 就 








越 高 。 











度量 图 中 两 个 顶点 之 间 相 关 性 的 方法 很 多 ,但 一 般 来 说 图 中 顶点 的 相关 性 主要 取决 于 下 面 3 





可 

















GD 参见 http://en.wikipedia.org/wiki/Bipartite_graph。 
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个 因素 : 

口 两 个 顶点 之 间 的 路 径 数 ; 

口 两 个 顶点 之 间 路 径 的 长 度 ; 

口 两 个 顶点 之 间 的 路 径 经 过 的 顶点 。 

而 相关 性 高 的 一 对 顶点 一 般 具 有 如 下 特征 : 

口 两 个 顶点 之 间 有 很 多 路 径 相 连 ; 

口 连接 两 个 顶点 之 间 的 路 径 长 度 都 比较 短 ; 

口 连接 两 个 顶点 之 间 的 路 径 不 会 经 过 出 度 比较 大 的 顶点 。 

举 一 个 简单 的 例子 ， 如 图 2-19 所 示 ， 用 户 A 和 物品 c、e 没 有 边 相 连 ， 但 是 用 户 A 和 物品 c 有 两 
条 长 度 为 3 的 路 径 相 连 ， 用 户 A 和 物品 e 有 两 条 长 度 为 3 的 路 径 相连 。 那 么 ， 顶 点 A 与 e 之 间 的 相关 











性 要 高 于 顶点 A 与 c， 因 而 物品 e 在 用 户 A 的 推荐 列表 中 应 该 排 在 物品 c 之 前 ， 因 为 顶点 A 与 e 之 间 有 
两 条 路 径 一 一 ( A,b,C,e ) 和 (A,dD,e)。 其 中 ,，(A,b,C,e) 路 径 经 过 的 顶点 的 出 度 为 (3, 2, 2， 


























一 种 基于 随机 游 走 的 PersonalRank 算 法 ”。 





人 参见 Fouss Francois 、Pirotte Alain、Renders Jean-Michel 和 Saerens Marco 的 “Random-Walk Computation of Similarities 
between Nodes of a Graph with Application to Collaborative Recommendation” (IEEE Transactions on Knowl edge and 
Data Eng ineering, 2007)。 

@ 参见 Taher H .Haveliwala 的 “Topic-Sensitive PageRank”( WWW 2002, 2002 )。 
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假设 要 给 用 户 u 进 行 个 性 化 推荐 ， 可 以 从 用 户 u 对 应 的 节点 w 开 始 在 用 户 物 品 二 分 图 上 进行 随 
机 游 走 。 游 走 到 任何 一 个 节点 时 ， 首 先 按照 概率 a 决定 是 继续 游 走 ， 还 是 停止 这 次 游 走 并 从 v 节 
点 开始 重新 游 走 。 如 果 决 定 继续 游 走 , 那么 就 从 当前 节点 指向 的 节点 中 按照 均匀 分 布 随机 选择 一 
个 节点 作为 游 走 下 次 经 过 的 节点 。 这样, 经 过 很 多 次 随机 游 走 后 ,每 个 物品 节点 被 访问 到 的 概率 
会 收敛 到 一 个 数 。 最 终 的 推荐 列表 中 物品 的 权重 就 是 物品 节点 的 访问 概率 。 

如 果 将 上 面 的 描述 表示 成 公式 ， 可 以 得 到 如 下 公式 : 
PR(v") 
out(v)| 




















(vv,) 





PR(v) viein(v) 
(L-alpha)+Cw >， 


VEin(v) 


PR 


[Jou (v=%,) 





下 面 的 Python 代码 简单 实现 了 上 面 的 公式 : 


def PersonalRank(G, alpha, root): 
rank = dict() 
rank = {x:0 for x in G.keys()} 
rank[root] = 1 
for k in range(20): 
tmp = {x:0 for x in G.keys()} 
for i, ri in G.items() : 
for j, wij in ri.items(): 
if J not in tmp: 
tmp[lj] = 0 
tj] 4=: 0 人 * rank[il] 7 (1.0 * Ten(ri)) 
i ,0 
tmp[j] += 1 - alpha 
rank = tmp 
return rank 


我 们 用 上 面 的 代码 跑 了 一 下 图 2-20 的 例子 ， 给 A 用 户 进行 推荐 。 图 2-21 给 出 了 不 同 迭 代 次 数 
后 每 个 项 点 的 访问 概率 。 从 图 中 可 以 看 到 , 每 个 项 点 的 访问 概率 在 9 次 迭代 之 后 就 基本 上 收敛 了 。 
在 这 个 例子 中 ,用户 A 没 有 对 物品 bp 、d 有 过 行为 。 在 最 后 的 迭代 结果 中 ，d 的 访问 概率 大 于 b， 
此 给 A 的 推荐 列表 就 是 {Q&, b}。 

















图 2-20 ”PersonalRank 的 简单 例子 
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图 2-21 不 同 次 迭代 中 不 同 节点 的 访问 概率 
本 节 在 MovieLens 的 数据 集 上 评测 了 PersonalRank 算 法 ， 实 验 结果 如 表 2-15 所 示 。 


表 2-15 “MovieLens 数 据 集中 PersonalRank 算 法 的 离线 实验 结果 
准 确 率 召回 率 覆 盖 率 流行 度 
0.8 16.45% 7.95% 3.42% 7.6928 



























































虽然 PersonalRank 算 法 可 以 通过 随机 游 走 进行 比较 好 的 理论 解释 ， 但 该 算法 在 时 间 复 杂 度 上 
有 明显 的 缺点 。 因 为 在 为 每 个 用 户 进行 推荐 时 ， 都 需要 在 整个 用 户 物 品 二 分 网上 进行 迭代 , 直到 
整个 图 上 的 每 个 顶点 的 PR 值 收敛 。 这 一 过 程 的 时 间 复 杂 度 非常 高 ， 不 仅 无 法 在 线 提供 实时 推荐 ， 
甚至 离线 生成 推荐 结果 也 很 耗 时 。 

为 了 解决 PersonalRank 每 次 都 需要 在 全 图 迭代 并 因此 造成 时 间 复 杂 度 很 高 的 问题 ， 这 里 给 出 
两 种 解决 方案 。 第 一 种 很 容易 想到 ， 就 是 减少 迭代 次 数 , 在 收敛 之 前 就 停止 。 这 样 会 影响 最 终 的 
精度 ， 但 一 般 来 说 影响 不 会 特别 大 。 另 一 种 方法 就 是 从 矩阵 论 出 发 ， 重 新 设计 算法 。 

对 和 抢 阵 运算 比较 熟悉 的 读者 可 以 轻松 将 PersonalRank 转 化 为 矩阵 的 形式 。 令 1W 为 用 户 物 品 二 
分 图 的 转移 概率 和 矩阵 ， 即 : 














i 


WO out) 


那么 ， 迭 代 公 式 可 以 转化 为 : 
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r=(-on+oM’r 
对 矩阵 论 稍微 熟悉 的 读者 都 可 以 解 出 上 面 的 方程 ， 得 到 
7 =(1-o0Q 一 ca) 为 
因此 ， 只 需要 计算 一 次 (1-gM”) ， 这 里 1-gM 是 稀 玻 和 矩阵。 关于 如 何 对 稀 玻 矩阵 快速 求 关 ， 
可 以 参考 矩阵 计算 方面 的 书籍 和 论文 "， 本 书 就 不 再 讨论 了 。 








Q@ 比如 Song Li 的 “Fast Algorithms For Sparse Matrix Inverse Compuataions”( 2009 )。 
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推荐 系统 需要 根据 用 户 的 历史 行为 和 兴趣 预测 用 户 未 来 的 行为 和 兴趣 , 因此 大 量 的 用 户 行为 
数据 就 成 为 推荐 系统 的 重要 组 成 部 分 和 先决 条 件 。 对 于 很 多 像 百 度 、 当 当 这 样 的 网 站 来 说 , 这 或 
许 不 是 个 问题 , 因为 它们 目前 已 经 积累 了 大 量 的 用 户 数据 。 但 是 对 于 很 多 做 纯粹 推荐 系统 的 网 站 
(比如 Jinni 和 Pandora )， 或 者 很 多 在 开始 阶段 就 希望 有 个 性 化 推荐 应 用 的 网 站 来 说 ， 如 何在 没有 
大 量 用 户 数 据 的 情况 下 设计 个 性 化 推荐 系统 并 且 让 用 户 对 推荐 结果 满意 从 而 愿意 使 用 推荐 系统 ， 
就 是 冷 启 动 的 问题 。 

下 面 各 节 将 简单 介绍 一 下 冷 局 动 问题 的 分 类 ， 以 及 如 何 解 决 不 同 种 类 的 冷 启动 问题 。 


3.1 冷 启动 问题 简介 


冷 启 动 问题 (cold start ) 主要 分 3 类 。 

口 用 户 冷 启动 ”用 户 冷 启动 主要 解决 如 何 给 新 用 户 做 个 性 化 推荐 的 问题 。 当 新 用 户 到 来 时 ， 
我 们 没有 他 的 行为 数据 ， 所 以 也 无 法 根据 他 的 历史 行为 预测 其 兴趣 ， 从 而 无 法 借 此 给 他 
做 个 性 化 推荐 。 

口 物品 冷 启动 ”物品 冷 启 动 主要 解决 如 何 将 新 的 物品 推荐 给 可 能 对 它 感 兴趣 的 用 户 这 一 问题 。 

口 系统 冷 启动 ”系统 冷 启动 主要 解决 如 何在 一 个 新 开发 的 网 站 上 还 没有 用 户 ， 也 没有 用 
户 行为 ， 只 有 一 些 物品 的 信息 ) 设计 个 性 化 推荐 系统 ， 从 而 在 网 站 刚 发 布 时 就 让 用 户 体 
验 到 个 性 化 推荐 服务 这 一 问题 。 

对 于 这 3 种 不 同 的 冷 启 动 问题 ， 有 不 同 的 解决 方案 。 一 般 来 说 ， 可 以 参考 如 下 解决 方案 。 

口 提供 非 个 性 化 的 推荐 ” 非 个 性 化 推荐 的 最 简单 例子 就 是 热门 排行 榜 ， 我 们 可 以 给 用 户 推 

荐 热门 排行 榜 ， 然 后 等 到 用 户 数据 收集 到 一 定 的 时 候 ， 再 切换 为 个 性 化 推荐 。 

口 利用 用 户 注册 时 提供 的 年 龄 、 性 别 等 数据 做 粗 粒 度 的 个 性 化 。 

口 利用 用 户 的 社交 网 络 账号 登录 ( 需要 用 户 授权 )， 导 入 用户 在 社交 网 站 上 的 好 友信 息 ， 然 

后 给 用 户 推荐 其 好 友 喜 欢 的 物品 。 

口 要 求 用 户 在 登录 时 对 一 些 物品 进行 反馈 ,收集 用 户 对 这 些 物品 的 兴趣 信息 ， 然 后 给 用 户 

推荐 那些 和 这 些 物品 相似 的 物品 。 

口 对 于 新 加 入 的 物品 ， 可 以 利用 内 容 信 息 ， 将 它们 推荐 给 喜欢 过 和 它们 相似 的 物品 的 用 户 。 

口 在 系统 冷 启动 时 , 可 以 引入 专家 的 知识 , 通过 一 定 的 高 效 方式 迅速 建立 起 物品 的 相关 度 表 。 
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下 面 几 节 将 详细 描述 其 中 的 某 些 方案 。 
3.2 利用 用 户 注 册 信 息 


在 网 站 中 ， 当 新 用 户 刚 注册 时 ， 我们 不 知道 他 喜欢 什么 物品 ,于 是 只 能 给 他 推荐 一 些 热门 的 
商品 。 但 如 果 我 们 知道 她 是 一 位 女性 , 那么 可 以 给 她 推荐 女性 都 喜欢 的 热门 商品 。 这 也 是 一 种 个 
性 化 的 推荐 。 当 然 这 个 个 性 化 的 粒度 很 粗 ， 因 为 所 有 刚 注 册 的 女性 看 到 的 都 是 同样 的 结果 , 但 相 
对 于 不 区 分 男女 的 方式 , 这 种 推荐 的 精度 已 经 大 大 提高 了 。 因 此 ,利用 用 户 的 注册 信息 可 以 很 好 
地 解决 注册 用 户 的 冷 启动 问题 。 在 绝 大 多 数 网 站 中 ,年龄 、 性 别 一 般 都 是 注册 用 户 的 必 备 信息 。 
如 3-1 所 示 , 个 性 化 电台 Pandora 的 注册 界面 就 要 求 用 户 提供 生日 、 邮 编 和 性 别 等 数据 。Pandora 在 
解释 为 什么 需要 这 些 数据 时 表示 是 为 了 让 用 户 能 够 看 到 和 自己 更 加 相关 的 广告 。 其 实 , 这 些 数据 
也 可 以 用 于 解决 用 户 听 音乐 的 冷 启动 问题 。 
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截取 自 Pandora 网 站 , 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 3-1 Pandora 的 用 户 注 册 界 面 























用 户 的 注册 信息 分 3 种 。 

口 人 口 统计 学 信息 ”包括 用 户 的 年 龄 、 性 别 、 职 业 、 民 族 、 学 历 和 居住 地 。 

口 用 户 兴趣 的 描述 有 一 些 网 站 会 让 用 户 用 文字 描述 他 们 的 兴 

口 从 其 他 网 站 导入 的 用 户 站 外 行为 数据 ”比如 用 户 通 过 豆 泊 、 新 浪 微 博 的 账号 登录 ， 就 可 以 
在 得 到 用 户 同意 的 情况 下 获取 用 户 在 豆 准 或 者 新 浪 微 博 的 一 些 行 为 数据 和 社交 网 络 数据 。 
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这 一 节 主 要 讨论 如 何 通过 用 户 注 册 时 填写 的 人 口 统 计 学 信息 给 用 户 提供 粗 粒 度 的 个 性 化 
推荐 。 

人 口 统计 学 特征 包括 年 龄 、 性 别 、 工 作 、 学 历 、 居 住地 、 国 籍 、 民 族 等 ， 这 些 特 征 对 预测 用 
户 的 兴趣 有 很 重要 的 作用 ， 比 如 男性 和 女性 的 兴趣 不 同 ， 不 同年 龄 的 人 兴趣 也 不 同 。 图 3-2 显 示 
了 IMDB (IMDB 网 站 中 给 出 了 每 一 部 电影 和 电视 剧 的 评分 人 数 按照 年 龄 和 性 别 分 布 的 数据 ” ) 中 
给 著名 美剧 评分 的 男女 用 户 数 的 比例 。 这 幅 图 中 的 数据 只 代表 IMDB 用 户 观看 电视 剧 的 性 别 分 布 ， 
因为 IMDB 网 站 用 户 的 性 别 分 布 本 身 是 不 均匀 的 (男性 用 户 较 多 )。 如 图 3-2 所 示 ， 用 户 选 择 电视 
剧 的 行为 和 性 别 有 很 大 的 相关 性 ， 有 些 电视 剧 ( 比如 《实习 医生 格雷 》 和 《绝望 主妇 》) 比较 受 
女性 的 欢迎 ， 而 一 些 电视 剧 ( 比如 《生活 大 爆炸 》 和 《荒野 求生 》) 则 比较 受 男性 的 欢迎 。 

基于 人 口 统计 学 特征 的 推荐 系统 其 典型 代表 是 Bruce Krulwich 开 发 的 Lifestyle Finder”。 首 先 ， 
Bruce Krulwich 将 美国 人 群 根据 人 口 统计 学 属性 分 成 62 类 ， 然 后 对 于 每 个 新 用 户 根据 其 填写 的 个 
人 资料 判断 他 属于 什么 分 类 ， 最 后 给 他 推荐 这 类 用 户 最 喜欢 的 15 个 链接 ， 其 中 5 个 链接 是 推荐 他 
购买 的 商品 ，5 个 链接 是 推荐 他 旅游 的 地 点 ， 剩 下 的 5 个 链接 是 推荐 他 去 逛 的 商店 。 
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图 3-2 IMDB 中 不 同 美剧 的 评分 用 户 的 性 别 分 布 


为 了 证 明 利用 用 户 人 口 统计 学 特征 后 的 推荐 结果 好 于 随机 推荐 的 结果 ,Krulwich 做 了 一 个 AB 
测试 。 相 对 于 利用 人 口 统计 学 特征 的 算法 ，Krulwich 设 计 了 一 个 对 照 组 ， 该 组 用 户 看 到 的 推荐 结 
果 是 完全 随机 的 。 实 验 结果 显示 ,对 于 利用 人 口 统计 学 特征 的 个 性 化 推荐 算法 ,其 用 户 点 击 率 为 
89%， 而 随机 算法 的 点 击 率 只 有 27%。 对 于 利用 人 口 统计 学 特征 的 个 性 化 算法 ，44% 的 用 户 觉 得 
推荐 结果 是 他 们 喜欢 的 ， 而 对 于 随机 算法 只 有 31% 的 用 户 觉得 推荐 结果 是 自己 喜欢 的 。 因 此 , 我 
们 得 到 一 个 结论 一 一 使 用 人 口 统计 学 信息 相对 于 随机 推荐 能 够 获得 更 好 的 推荐 效果 。 当 然 ， 
Krulwich 的 实验 也 有 明显 的 缺点 ， 即 他 没有 对 比 和 给 用 户 推荐 最 热门 的 物品 的 推荐 算法 。 因 为 热 























Qa 比如 《 豪 斯 医生 》( House M.D. ) 的 评分 用 户 性 别 分 布 见 http://www.imdb.com/title/tt0412142/ratings。 
@) 参见 论文 Bruce Krulwich 的 “Lifestyle finder : intelligent user profiling using large scale demographic data”( 1997 )。 
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门 排行 榜 作 为 一 种 非 个 性 化 推荐 算法 ， 一 般 也 比 随 机 推荐 具有 更 高 的 点 击 率 。 

基于 注册 信息 的 个 性 化 推荐 流程 基本 如 下 : 

(1) 获取 用 户 的 注册 信息 ; 

(2) 根据 用 户 的 注册 信息 对 用 户 分 类 ; 

(3) 给 用 户 推荐 他 所 属 分 类 中 用 户 喜 欢 的 物品 。 

图 3-3 是 一 个 基于 用 户 人 口 统 计 学 特征 推荐 的 简单 例子 。 如 图 所 示 ， 当 一 个 新 的 注册 用 户 访 
问 推荐 系统 时 ， 我 们 首先 从 用 户 注册 信息 数据 库 中 查询 他 的 注册 信息 。 比 如 图 3-3 中 的 用 户 , 我 
们 查 到 他 是 一 位 28 岁 的 男性 ， 是 一 位 物理 学 家 。 然 后 ， 查 询 3 张 离线 计算 好 的 相关 表 : 一 张 是 性 
别 -电视 剧 相关 表 ， 从 中 可 以 查询 男性 最 喜欢 的 电视 剧 ; 一 张 是 年 龄 -电视 剧 相关 表 ， 从 中 可 以 查 
询 到 28 岁 用 户 最 喜欢 的 电视 剧 ; 一 张 是 职业 -电视 剧 相关 表 ， 可 以 查询 到 物理 学 家 最 喜欢 的 电视 
剧 。 然 后 ,我 们 可 以 将 用 这 3 张 相 关 表 查 询 出 的 电视 剧 列表 按照 一 定 权 重 相 加 ， 得 到 给 用 户 的 最 
终 推 荐 列表 。 
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Known Universe Naked Science Cosmic Journeys Cosmos 
三 灵 址 女 家 灵 灵 妇 灾 妈 丰 灾 安 普 安 奖 吉姆 妇女 攻 


内 | 
2 [EAPRICA 


ANCTUARY 
Sanctuary Caprica 
家 灵 丰 女 吉 址 雄 女 











Stargate Atlantis 
让 友 女 女人 


截取 自 Hulu 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 3-3 一 个 基于 用 户 人 口 统计 学 特征 推荐 的 简单 例子 


当然 , 实际 应 用 中 也 可 以 考虑 组 合 特征 ， 比 如 将 年 龄 性 别 作为 一 个 特征 , 或 者 将 性 别 职 业 作 

















为 一 个 特征 。 不 过 在 使 用 组 合 时 需要 注意 用 户 不 一 定 具 有 所 有 的 特征 ( 比如 有 些 用 户 没 有 职业 信 
息 )， 因 为 一 般 的 注册 系统 并 不 要 求 用 户 填写 所 有 注册 项 。 
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由 图 3-3 中 的 例子 可 知 ， 基 于 用 户 注 册 信 息 的 推荐 算法 其 核心 问题 是 计算 每 种 特征 的 用 户 喜 
欢 的 物品 。 也 就 是 说 ， 对 于 每 种 特征 {/， 计 算 具 有 这 种 特征 的 用 户 对 各 个 物品 的 喜好 程度 p(j; i)。 

Pp(f 可 以 简单 地 定义 为 物品 在 具有 的 特征 的 用 户 中 的 热门 程度 : 

Pp(f i)=INONUA 
其 中 NO) 是 喜欢 物品 的 用 户 集合 ，U( 了 ) 是 具有 特征 /的 用 户 集合 。 

上 面 这 种 定义 可 以 比较 准确 地 预测 具有 某 种 特征 的 用 户 是 否 喜欢 某 个 物品 。 但 是 , 在 这 种 定 
义 下 ,往往 热门 的 物品 会 在 各 种 特征 的 用 户 中 都 具有 比较 高 的 权重 。 也 就 是 说 具有 比较 高 的 |N(i) 
的 物品 会 在 每 一 类 用 户 中 都 有 比较 高 的 p(f,i) 。 给 用 户 推 荐 热门 物品 并 不 是 推荐 系统 的 主要 任 
务 , 推荐 系统 应 该 帮助 用 户 发 现 他 们 不 容易 发 现 的 物品 。 因此 , 我 们 可 以 将 p(J,) 定 义 为 襄 欢 物 
品 i 的 用 户 中 具有 特征 /的 比例 : 















































~ INDONMU(N) 
p(f,i)= oe 

这 里 分 母 中 使 用 参数 w 的 目的 是 解决 数据 稀疏 问题 。 比 如 有 一 个 物品 只 被 1 个 用 户 喜 欢 过 ， 
而 这 个 用 户 刚 好 就 有 特征 {/， 那 么 就 有 p(f,i)=1。 但是， 这 种 情况 并 没有 统计 意义 ， 因 此 我 们 为 
分 母 加 上 一 个 比较 大 的 数 ， 可 以 避免 这 样 的 物品 产生 比较 大 的 权重 。 

有 两 个 推荐 系统 数据 集 包含 了 人 口 统计 学 信息 ， 一 个 是 BookCrossing 数 据 集 ”， 
Lastfm 数 据 集 ?。 

BookCrossing 数 据 集 包 含 用 户 对 图 书 的 行为 信息 ， 包 含 3 个 文件 。 
口 BX-Users.csv， 包 含 用 户 的 ID 、 位 置 和 年 龄 。 
口 BX-Books.csv， 包 含 图 书 的 ISBN 、 标 题 、 作 者 、 发 表 年 代 、 出 版 社 和 缩 略 。 
口 BX-Book-Ratings.csv， 包 含 用 户 对 图 书 的 评分 信息 。 

下 面 我 们 根据 这 个 数据 集 研究 一 下 年 龄 对 用 户 喜 欢 图 书 的 影响 。 我们 研究 两 类 用 户 , 一 类 是 
小 于 25 岁 的 ， 一 类 是 大 于 50 岁 的 。 

首先 ， 我 们 利用 p(f,i)=|INQ)NMU( 有 A) 统计 了 这 两 部 分 用 户 最 经 常 看 的 书 ， 并 将 每 一 类 用 户 
最 经 常 看 的 5 本 书 显示 在 表 3-1 中 。 同 时 我 们 也 利用 PC/D= oe 计算 了 年 轻 用 户 比例 最 
高 的 5 本 书 和 老年 用 户 比 例 最 高 的 5 本 书 ( 如 表 3-2 所 示 )。 我 们 可 以 看 到 , 表 3-1 中 年 轻 用 户 和 老年 
用 户 最 热门 的 $ 本 书 有 3 本 是 相同 的 ， 重 合 度 很 高 。 这 3 本 书 其 实 是 老少 咸 宜 的 。 在 年 轻 人 最 喜欢 
的 书 中 ， 只 有 《 哈 利 波 特 和 魔法 石 》 (Harry Potter and the Sorcerer 3 Stone ) 和 《麦田 里 的 守望 者 》 
( The Catcher in the Rye ) 是 比较 符合 年 轻 人 兴趣 的 。 而 在 老年 用 户 喜 欢 的 书 中 ， 似 乎 没有 特别 能 
反映 老年 用 户 特点 的 书 。 由 此 可 见 ，p(f,i)=|N()NMU(A) 很 难 用 来 给 用 户 推荐 符合 他 们 特征 的 
个 性 化 物品 。 




















男 一 个 是 































































































= 


Whttp://www.informatik.uni-freiburg.de/~cziegler/BX/。 
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全 见 http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastftm-360K.html。 
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不 过 观看 表 3-2 就 可 以 发 现 ， 列 表 中 推荐 给 年 轻 用 户 的 书 都 是 符合 年 轻 人 兴趣 的 ， 而 推荐 给 
FE 人 的 书 也 是 符合 老年 人 兴趣 的 。 
表 3-1 年 轻 用 户 和 老年 用 户 经 常 看 的 图 书 的 列表 








by 


老 








年 轻 人 (小 于 25 岁 ) 
Wild Animus, Rich Shapero, 2004, Too Far 





The Lovely Bones: A Novel, Alice Sebold, 2002, Little, Brown 
Harry Potter and the Sorcerer’s Stone (Harry Potter (Paperback)), J. K. Rowling, 1999, Arthur A. Levine Books 
The Catcher in the Rye, J.D. Salinger, 1991, Little, Brown 
The Da Vinci Code, Dan Brown, 2003, Doubleday 
老年 人 〈 大 于 50 岁 ) 
Wild Animus, Rich Shapero, 2004, Too Far 











The Da Vinci Code, Dan Brown, 2003, Doubleday 

The Lovely Bones: A Novel, Alice Sebold, 2002, Little, Brown 
A Painted House, John Grisham, 2001, Dell Publishing Company 
Angels & Demons, Dan Brown, 2001, Pocket Star 


表 3-2 年 轻 用 户 比 例 最 高 的 5 本 书 和 老年 人 比例 最 高 的 5 本 书 
年 轻 人 (小 于 25 岁 ) 
The Perks of Being a Wallflower, Stephen Chbosky, 1999, MTV 





The Catcher in the Rye, J.D. Salinger, 1991, Little, Brown 
And Then There Were None : A Novel, Agatha Christie, 2001, St. Martin’s Paperbacks 
Chicken Soup for the Teenage Soul (Chicken Soup for the Soul), Jack Canfield, 1997, Health Communications 
The Giver (21st Century Reference), LOIS LOWRY, 1994, Laure Leaf 
老年 人 〈 大 于 50 岁 ) 
The No. 1 Ladies’ Detective Agency (Today Show Book Club #8), Alexander McCall Smith, 2003, Anchor 








A Painted House, John Grisham, 2001, Dell Publishing Company 

The Da Vinci Code, Dan Brown, 2003, Doubleday 

Deception Point, Dan Brown, 2002, Pocket 

A Thief of Time (Joe Leaphorn/Jim Chee Novels), Tony Hillerman, 1990, HarperTorch 





Lastfm 数 据 集 包 含 了 更 多 的 用 户 人 口 统计 学 信息 , 包括 用 户 的 性 别 、 年 龄 和 国籍 。 图 3-4 给 出 
ed 如 图 所 示 ， 该 数据 集中 男性 用 户 占 了 绝 大 多 数 ( 大 约 占 3/4 )。 图 

-5 给 出 了 该 数据 集中 用 户 年 龄 的 分 布 。 如 图 所 示 ， 该 数据 集中 20 ~ 25 岁 的 用 户 占 了 绝 大 多 数 比 
. 图 3-6 给 出 了 该 数据 集中 用 户 国家 的 分 布 。 如 图 所 示 ， 该 数据 集中 美国 、 德 国 和 英国 的 用 户 
占 了 绝 大 多 数 比例 。 
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图 3-4 ”Lastfm 数 据 集中 男女 用 户 的 分 布 
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图 3-5 ”Lastfm 数 据 集中 用 户 年 龄 的 分 布 
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图 3-6 ”Lastfm 数 据 集 中 用 户 国家 的 分 布 
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我 们 准备 用 该 数据 集 对 比 一 下 使 用 不 同 的 人 口 统计 学 特征 预测 用 户 行为 的 精度 。 这里, 我 们 
将 数据 集 划 分 成 10 份 ，9 份 作为 训练 集 ，1 份 作为 测试 集 。 然 后 ,我们 在 训练 集 上 利用 
Pp(f =|N(D)NMU( 有 )| 计 算 每 一 类 用 户 对 物品 的 兴趣 程度 p( 了 ,i) 。 然 后 在 测试 集中 给 每 一 类 用 户 
推荐 p(f,i) 最 高 的 10 个 物品 ,并 通过 准确 率 和 召回 率 计算 预测 准确 度 。 同时, 我们 也 会 计算 推荐 
的 覆盖 率 来 评测 推荐 结果 。 

我 们 按照 不 同 的 粒度 给 用 户 分 类 ， 对 比 了 4 种 不 同 的 算法 。 
口 MostPopular 给 用 户 推 荐 最 热门 的 歌手 。 
口 GenderMostPopular 给 用 户 推 荐 对 于 和 他 同性 别 的 用 户 最 热门 的 歌手 ， 这 里 我 们 将 用 
户 分 成 男女 两 类 。 
口 AgeMostPopular 给 用 户 推荐 对 于 和 他 同一 个 年 龄 段 的 用 户 最 热门 的 歌手 ， 这 里 我 们 将 
10 岁 作为 一 个 年 龄 段 ， 将 用 户 按照 不 同 的 年 龄 段 分 类 。 
口 CountryMostPopular 给 用 户 推 荐 对 于 和 他 同一 个 国家 的 用 户 最 热门 的 歌手 。 
口 DemographicMostPopular 给 用 户 推荐 对 于 和 他 同性 别 、 年 龄 段 、 国 家 的 用 户 最 热门 的 

歌手 。 

从 算法 的 描述 可 见 ， 这 4 种 算法 具有 不 同 的 粒度 ， 其 中 MostPopular 粒 度 最 粗 ， 而 
DemographicMostPopular 算 法 的 粒度 最 细 。 一 般 说 来 ， 粒 度 越 细 ， 精 度 和 有 覆盖 率 也 会 越 高 。 

表 3-3 给 出 了 实验 结果 。 如 结果 所 示 , 确实 是 DemographicMostPopular 算 法 的 准确 率 、 召 回 率 
和 覆盖 率 更 高 。 这 说 明 ， 利用 的 用 户 人 口 统计 学 特征 越 多 ， 越 能 准确 地 预测 用 户 兴趣 。 同 时 ， 结 
果 显 示 : 

DemographicMostPopular > CountryMostPopular > AgeMostPopular > GenderMostPopular > 










































































MostPopular 
表 3-3 4 种 不 同 粒 度 算法 的 召回 率 、 准 确 率 和 覆盖 率 
方法 召 回 率 准 确 率 履 盖 率 
MostPopular 4.81% 2.36% 0.018% 
GenderMostPopular 4.95% 2.43% 0.027% 
AgeMostPopular 5.04% 2.47% 0.062% 
CountryMostPopular 5.58% 2.73% 0.80% 
DemographicMostPopular 6.00% 2.94% 3.85% 





这 说 明 在 预测 用 户 对 音乐 的 兴趣 时 ， 国 家 比 年 龄 、 性 别 特征 影响 更 大 。 这 一 点 是 显然 的 ， 比 
如 中 国 的 年 轻 人 和 美国 的 年 轻 人 喜欢 的 音乐 差异 是 很 大 的 。 


3.3 ”选择 合适 的 物品 启动 用 户 的 兴趣 


解决 用 户 冷 启动 问题 的 另 一 个 方法 是 在 新 用 户 第 一 次 访问 推荐 系统 时 , 不 立即 给 用 户 展示 推 
荐 结果 ,而 是 给 用 户 提供 一 些 物 品 , 让 用 户 反 人 馈 他 们 对 这 些 物品 的 兴趣 ,然后 根据 用 户 反 馈 给 提 
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供 个 性 化 推荐 。 很 多 推荐 系统 采取 了 这 种 方式 来 解决 用 户 冷 启 动 问题 。 以 Jinni 为 例 ， 当 新 用 户 访 
问 推荐 系统 时 , 它 会 给 出 一 条 提示 语 , 表示 用 户 需要 给 多 部 电影 评分 才能 获取 推荐 结果 ( 如 图 3-7 





所 示 )。 当 用 户 选 择 给 多 部 














电影 评分 后 ，Jinni 会 首先 展示 一 个 页 面 让 用 户 选 择 他 喜欢 的 电影 类 别 


(如 图 3-8 所 示 )， 当 用 户 选 择 了 某 一 个 类 别 后 , Jinni 会 展示 第 三 个 界面 让 用 户 对 电影 进行 反馈 ( 如 


图 3-9 所 示 )。 








o reculike 


Recommendations | WishList | Favorites | Ratings | Pulse | People 


Rate atleast 10 movies to jumpstart your recommendations! Your recommendations update with more titles 
once each day you sign into Jinni. 























图 3-7 ”Jinni 在 新 用 户 登 录 推荐 系统 时 提示 用 户 需 要 给 多 部 电影 评分 











To jumpstart your recommendations and Movie Personality profile, rate movies for 
one of the 12 types of movie watchers below. You'l probably find a few types that fit. 


qs 


The Introspector The Hero 












“| 


The Drama Addict The Social Animal The Extremist 

















截取 自 Jinni 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 3-8 Jinni 让 用 户 选 择 自己 喜欢 的 电影 类 别 


























对 于 这 些 通过 让 用 户 对 物品 进行 评分 来 收集 用 户 兴趣 ,从 而 对 用 户 进行 冷 启 动 的 系统 , 它们 
需要 解决 的 首要 问题 就 是 如 何 选择 物品 让 用 户 进行 反馈 。 

一 般 来 说 ， 能 够 用 来 启动 用 户 兴 趣 的 物品 需要 具有 以 下 特点 。 

口 比较 热门 ”如 果 要 让 用 户 对 一 个 物品 进行 反馈 ， 前 提 是 用 户 知道 这 个 物品 


以 











电影 为 例 ， 如 果 一 开始 让 用 户 进行 反馈 的 电影 都 很 冷门 ， 而 用 户 不 知道 


节 和 内 容 ， 也 就 无 法 对 它们 做 出 准确 的 反馈 。 


什么 东西 。 


是 
这 些 电 影 的 情 
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Love Actually Ordinary People 
一 


Jules And Jim 





De py ~ A 
Rate it Rate it Rate it Rate it 
BLikelyto see BDLikelyto see BLikelyto see BLikelyto see 
ty Notfor me WNotfor me Wy Notfor me py Notfor me 
Harold and Maude American Beauty The Squid and the Whale The lce Storm 
= ， 一 











= 2 
Rate it Rate it ate Rate it 
BLikelyto see BDLikelyto see BLikelyto see BLikelyto see 
Wy Notfor me WNotfor me Wy Notfor me Wy Notfor me 














截取 自 Jinni 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 3-9 ”Jinni 让 用 户 对 电影 进行 评分 的 界面 


口 具有 代表 性 和 区 分 性 ”启动 用 户 兴趣 的 物品 不 能 是 大 众 化 或 老少 咸 宜 的 ， 因 为 这 样 的 物品 
对 用 户 的 兴趣 没有 区 分 性 。 还 以 电影 为 例 , 用 一 部 票房 很 高 且 广 受 欢迎 的 电影 做 启动 物品 ， 
可 以 想象 的 到 的 是 几乎 所 有 用 户 都 会 喜欢 这 部 电影 ， 因 而 无 法 区 分 用 户 个 性 化 的 兴趣 。 
口 启动 物品 集合 需要 有 多 样 性 ”在 冷 启动 时 ， 我 们 不 知道 用 户 的 兴趣 ， 而 用 户 兴趣 的 可 能 
性 非常 多 ， 为 了 匹配 多 样 的 兴趣 ， 我 们 需要 提供 具有 很 高 覆盖 率 的 启动 物品 集合 ， 这 些 
品 能 覆盖 几乎 所 有 主流 的 用 户 兴趣 。 以 图 3-8 为 例 ，Jinni 在 让 用 户 反馈 时 没有 直接 拿 电 
影 让 用 户 反馈 ， 而 是 给 出 了 12 个 电影 类 型 ( 截图 中 只 显示 了 其 中 的 6 个 电影 类 型 )， 让 用 
户 先 选择 喜欢 哪 种 类 型 ， 这 样 就 很 好 地 保证 了 启动 物品 集合 的 多 样 性 。 
上 面 这 些 因素 都 是 选择 启动 物品 时 需要 考虑 的 ， 但 如 何 设计 一 个 选择 启动 物品 集合 的 系统 
呢 ? Nadav Golbandi 在 论文 "中 探讨 了 这 个 问题 ， 提 出 可 以 用 一 个 决策 树 解 决 这 个 问题 。 
首先 ， 给 定 一 群 用 户 ，Nadav Golbandi 用 这 群 用 户 对 物品 评分 的 方差 度量 这 群 用 户 兴趣 的 一 
臻 程度。 如果 方差 很 大 , 说 明 这 一 群 用 户 的 兴趣 不 太一 致 , 反之 则 说 明 这 群 用 户 的 兴趣 比较 一 致 。 
令 oeU' 为 用 户 集合 UV 中 所 有 评分 的 方差 ,Nadav Golbandi 的 基本 思想 是 通过 如 下 方式 度量 一 个 
物品 的 区 分 度 D(D: 


















































DO) = CexO 出 Cera 二 Oke) 


其 中 ，N GD) 是 喜欢 物品 的 用 户 集合 ，N- Gi) 是 不 喜欢 物品 的 用 户 集 合 ，N(Gi) 是 没有 对 物品 
i 评分 的 用 户 集合 。 o 是 喜欢 物品 的 用 户 对 其 他 物品 评分 的 方差 ，o 是 不 喜欢 物品 的 


ue NT (i) ueN- (i) 

















人 “Adaptive Bootstrapping of Recommender Systems Using Decision Trees”， 下 载 地 址 为 http://research.yahoo. 
com/pub/3502。 
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用 户 对 其 他 物品 评分 的 方差 ，aewo 是 没有 对 物品 i 评分 的 用 户 对 其 他 物品 评分 的 方差 。 也 就 是 
说 ， 对 于 物品 :1，Nadav Golbandi 将 用 户 分 成 3 类 一 一 喜欢 物品 的 用 户 、 不 喜欢 物品 的 用 户 和 不 知 
道 物品 的 用 户 ( 即 没 有 给 i 评分 的 用 户 )。 如 果 这 3 类 用 户 集合 内 的 用 户 对 其 他 的 物品 兴趣 很 不 一 
致 ， 说 明 物 品 肯 有 较 高 的 区 分 度 。 

Nadav Golbandi 的 算法 首先 会 从 所 有 用 户 中 找到 具有 最 高 区 分 度 的 物品 :， 然 后 将 用 户 分 成 3 
类 。 然 后 在 每 类 用 户 中 再 找到 最 具 区 分 度 的 物品 ， 然 后 将 每 一 类 用 户 又 各 自分 为 3 类 ， 也 就 是 将 
总 用 户 分 成 9 类 ， 然 后 这 样 继续 下 去 ， 最 终 可 以 通过 对 一 系列 物品 的 看 法 将 用 户 进行 分 类 。 而 在 
冷 启动 时 , 我 们 从 根 节点 开始 询问 用 户 对 该 节点 物品 的 看 法 , 然后 根据 用 户 的 选择 将 用 户 放 到 不 
同 的 分 枝 ， 直到 进入 最 后 的 叶子 节点 ， 此 时 我 们 就 已 经 对 用 户 的 兴趣 有 了 比较 清楚 的 了 解 ， 从 而 
可 以 开始 对 用 户 进 行 比较 准确 地 个 性 化 推荐 。 

图 3-10 通 过 一 个 简单 的 例子 解释 Nadav Golbandi 的 算法 。 如 图 所 示 , 假设 通过 分 析 用 户 数据 ， 
我 们 发 现 《 变 形 金 刚 》 最 有 区 分 度 。 而 在 喜欢 《变形 金刚 》 的 用 户 中 《钢铁 侠 》 最 有 区 分 度 , 不 
知道 《变形 金刚 》 的 用 户 中 《 阿 甘 正 传 》 最 有 区 分 度 ， 不 喜欢 《变形 金刚 》 的 用 户 中 《泰坦 尼克 
号 》 最 有 区 分 度 。 进 一 步 分 析 ， 我 们 发 现 不 喜欢 《变形 金刚 》 但 喜欢 《泰坦 尼克 号 》 的 用 户 中 ， 
《人 鬼 情 未 了 》 最 有 区 分 度 。 那 么 ,假设 来 了 一 个 新 用 户 ， 系 统 会 首先 询问 他 对 《变形 金刚 》 的 
看 法 ， 如 果 他 说 不 喜欢 ， 我 们 就 会 问 他 对 《泰坦 尼克 》 号 的 看 法 ， 如 果 他 说 喜欢 ,我 们 就 会 问 他 
对 《人 鬼 情 未 了 》 的 看 法 ， 如果 这 个 时 候 用 户 停止 了 反馈 ,我 们 也 大 概 能 知道 该 用 户 可 能 对 爱情 
片 比 较 感 兴趣 ， 对 科幻 片 兴趣 不 大 。 












































截取 自 IMDB 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 3-10 ”给 用 户 选 择 物品 以 解决 冷 启 动 问题 的 例子 
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3.4 利用 物品 的 内 容 信 息 


物品 冷 启 动 需要 解决 的 问题 是 如 何 将 新 加 入 的 物品 推荐 给 对 它 感 兴趣 的 用 户 。 物 品 冷 启动 在 
新 闻 网 站 等 时 效 性 很 强 的 网 站 中 非常 重要 , 因为 那些 网 站 中 时 时 刻 刻 都 有 新 加 入 的 物品 ,而且 每 
个 物品 必须 能 够 在 第 一 时 间 展 现 给 用 户 ， 和 否则 经 过 一 段 时 间 后 ， 物 品 的 价值 就 大 大 降低 了 。 

第 2 章 介 绍 了 两 种 主要 的 推荐 算法 一 一 UserCF 和 ItemCF 算 法 。 首 先 需 要 指出 的 是 ，UserCF 算 
法 对 物品 冷 启动 问题 并 不 非常 敏感 。 因 为 ,，UserCF 在 给 用 户 进 行 推荐 时 , 会 首先 找到 和 用 户 兴 
相似 的 一 群 用 户 , 然后 给 用 户 推荐 这 一 群 用 户 喜 欢 的 物品 。 在 很 多 网 站 中 ,推荐 列表 并 不 是 给 用 
户 展示 内 容 的 唯一 列表 , 那么 当 一 个 新 物品 加 入 时 ， 总 会 有 用 户 从 某 些 途径 看 到 这 些 物品 ， 对 这 
些 物 品 产生 反馈 。 那 么 ， 当 一 个 用 户 对 某 个 物品 产生 反馈 后 ， 和 他 历史 兴趣 相似 的 其 他 用 户 的 推 
荐 列表 中 就 有 可 能 出 现 这 一 物品 , 从 而 更 多 的 人 就 会 对 这 个 物品 产生 反馈 ,导致 更 多 的 人 的 推荐 
列表 中 会 出 现 这 一 物品 , 因此 该 物品 就 能 不 断 地 扩散 开 来 , 从 而 逐步 展示 到 对 它 感 兴趣 用 户 的 推 
荐 列表 中 。 

但 是 ， 有 些 网 站 中 推荐 列表 可 能 是 用 户 获 取信 息 的 主要 途径 ， 比 如 豆 辨 网 络 电 台 。 那 么 对 于 
UserCF 算 法 就 需要 解决 第 一 推动 力 的 问题 , 即 第 一 个 用 户 从 哪儿 发 现 新 的 物品 。 只 要 有 一 小 部 分 
人 能 够 发 现 并 喜欢 新 的 物品 , UserCF 算 法 就 能 将 这 些 物品 扩散 到 更 多 的 用 户 中 。 解决 第 一 推动 力 
最 简单 的 方法 是 将 新 的 物品 随机 展示 给 用 户 , 但 这 样 显然 不 太 个 性 化 , 因此 可 以 考虑 利用 物品 的 
内 容 信 息 , 将 新 物品 先 投放 给 曾经 喜欢 过 和 它 内 容 相似 的 其 他 物品 的 用 户 。 关 于 如 何 利用 内 容 信 
息 ， 本 节 将 在 后 面 介绍 。 

对 于 ItemCF 算 法 来 说 , 物品 冷 启 动 就 是 一 个 严重 的 问题 了 。 因 为 ItemCF 算 法 的 原理 是 给 用 户 
推荐 和 他 之 前 喜欢 的 物品 相似 的 物品 。ItemCF 算 法 会 每 隔 一 段 时 间 利用 用 户 行为 计算 物品 相似 度 
表 (一 般 一 天 计算 一 次 ), 在 线 服务 时 ItemCF 算 法 会 将 之 前 计算 好 的 物品 相关 度 和 矩阵 放 在 内 存 中 。 
因此 ， 当 新 物品 加 入 时 ,内 存 中 的 物品 相关 表 中 不 会 存在 这 个 物品 ,从 而 ItemCF 算 法 无 法 推荐 新 
的 物品 。 解 决 这 一 问题 的 办 法 是 频繁 更 新 物品 相似 度 表 , 但 基于 用 户 行为 计算 物品 相似 度 是 非常 
耗 时 的 事情 ， 主 要 原因 是 用 户 行为 日 志 非 常 庞大 。 而 且 ， 新 物品 如 果 不 展示 给 用 户 , 用 户 就 无 法 
对 它 产生 行为 ， 通过 行为 日 志 计 算是 计算 不 出 包含 新 物品 的 相关 和 矩阵 的 。 为 此 , 我 们 只 能 利用 物 
品 的 内 容 信 息 计算 物品 相关 表 ， 并 且 频 繁 地 更 新 相关 表 ( 比如 半 小 时 计算 一 次 )。 

物品 的 内 容 信 息 多 种 多 样 , 不 同类 型 的 物品 有 不 同 的 内 容 信息 。 如 果 是 电影 , 那么 内 容 信息 
一 般 包 括 标题 、 导 演 、 演 员 、 编 剧 、 剧 情 、 风 格 、 国 家 、 年 代 等 。 如 果 是 图 书 ， 内 容 信息 一 般 包 
含 标题 、 作 者 、 出 版 社 、 正 文 、 分 类 等 。 表 3-4 展 示 了 常见 物品 的 常用 内 容 信息 。 


表 3-4 ”常见 物品 的 内 容 信息 













































































































































































到 书 标题 、 作 者 、 出 版 社 、 出 版 年 代 、 从 书 名 、 目 录 、 正 文 

论文 标题 、 作 者 、 作 者 单位 、 关 键 字 、 分 类 、 搞 要 、 正 文 
影 标题 、 导 演 、 演 员 、 编 剧 、 类 别 、 剧 情 简介 、 发 行 公司 

新 闻 标题 、 正 文 、 来 源 、 作 者 

微 博 作者 、 内 容 、 评 论 
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一 般 来 说 ， 物 品 的 内 容 可 以 通过 向 量 空间 模型 "表示 ， 该 模型 会 将 物品 表示 成 一 个 关键 词 向 
量 。 如 果 物 品 的 内 容 是 一 些 诸如 导演 、 演 员 等 实体 的 话 ， 可 以 直接 将 这 些 实体 作为 关键 词 。 但 如 
果 内 容 是 文本 的 形式 ， 则 需要 引入 一 些 理解 自然 语言 的 技术 抽取 关键 词 。 图 3-11 展 示 了 从 文本 生 
成 关键 词 向 量 的 主要 步骤 。 对 于 中 文 ， 首 先 要 对 文本 进行 分 词 ， 将 字 流 变 成 词 流 ， 然 后 从 词 流 中 
检测 出 命名 实体 (如 人 各、 地名、 组 织 名 等 ), 这 些 实体 和 一 些 其 他 重要 的 词 将 组 成 关键 词 集合 ， 
最 后 对 关键 词 进行 排名 ,计算 每 个 关键 词 的 权重 ， 从 而 生成 关键 词 向 量 。 


EB— ;a — x — xtais BE 
图 3-11 关键 词 向 量 的 生成 过 程 


对 物品 4， 它 的 内 容 表 示 成 一 个 关键 词 向 量 如 下 : 
d, = {(e， Wi), (ew,),…} 


其 中 ，e 就 是 关键 词 ，w 是 关键 词 对 应 的 权重 。 如 果 物 品 是 文本 ,我们 可 以 用 信息 检索 领域 车 
名 的 TF-IDF 公 式 计算 词 的 权重 : 










































































TF(e) 
W = 
”log DF(e,) 

如 果 物 品 是 电影 , 可 以 根据 演员 在 剧 中 的 重要 程度 赋予 他 们 权重 。 向 量 空 间 模型 的 优点 是 简 
单 ， 缺 点 是 丢失 了 一 些 信息 ， 比 如 关键 词 之 间 的 关系 信息 。 不 过 在 绝 大 多 数 应 用 中 ,向 量 空间 模 
型 对 于 文本 的 分 类 、 聚 类 、 相 似 度 计算 已 经 可 以 给 出 令 人 满意 的 结果 。 

在 给 定 物品 内 容 的 关键 词 向 量 后 ， 物 品 的 内 容 相 似 度 可 以 通过 向 量 之 间 的 余弦 相似 度 计算 : 
dd 
ala 


在 具体 计算 物品 之 间 的 内 容 相似 度 时 , 最 简单 的 方法 当然 是 对 两 两 物品 都 利用 上 面 的 余弦 相 
似 度 公式 计算 相似 度 ， 如 下 代码 简单 实现 了 这 种 方法 : 
function CalculateSimilarity (D) 
for di in D: 
fo dj Ln D: 
w[i][j] = CosineSimilarity (di, dj) 
return w 


这 里 ，D 是 文档 集合 。 

但 这 种 算法 的 时 间 复 杂 度 很 高 。 假 设 有 N 个 物品 ， 每 个 物品 平均 由 m 个 实体 表示 ， 那 么 这 个 
算法 的 复杂 度 是 O(N?m) 。 

在 实际 应 用 中 ， 可 以 首先 通过 建立 关键 词 -物品 的 倒 排 表 加 速 这 一 计算 过 程 ， 关 于 这 一 方法 
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人 参见 维基 百科 Vector Space Model 词 条 。 
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已 经 在 前 面 介绍 UserCF 和 ItemCF 算 法 时 详细 介绍 过 了 ， 所 以 这 里 直接 给 出 计算 的 代码 : 


function CalculateSimilarity (entity-items) 
w = dict() 
Nett) 
for e,items in entity_items.items(): 
for i,wie in items.items(): 
addToVec (ni, i, wie * wie) 
for j,wje in items.items(): 
addToMat (w, i, j, wie, wje) 
for i, relate items in w.items() : 
relate_items = {x:y/math.sqrt (ni[i] * ni[x]) for x,y in relate_items.items()} 


得 到 物品 的 相似 度 之 后 , 可 以 利用 上 一 章 提 到 的 ItemCF 算 法 的 思想 , 给 用 户 推 荐 和 他 历史 上 
喜欢 的 物品 内 容 相似 的 物品 。 

也 许 有 读者 认为 ， 既 然 内 容 相似 度 计算 简单 ， 能 频繁 更 新 ， 而 且 能 够 解决 物品 冷 启 动 问题 ， 
那么 为 什么 还 需要 协同 过 滤 的 算法 。 为 了 说 明 内 容 过 滤 算 法 和 协同 过 滤 算 法 的 优 劣 ， 本 节 在 
MovieLens 和 GitHub 两 个 数据 集 上 进行 了 实验 。MovieLens 数 据 集 上 一 章 已 经 详细 介绍 了 , 它 也 提 
供 了 有 限 的 内 容 信息 ， 主 要 包括 电影 的 类 别 信 息 (动作 片 、 爱 情 片 等 类 别 )，GitHub 数 据 集 包含 
代码 开发 者 对 开源 项 目的 兴趣 数据 , 它 的 用 户 是 程序 员 ， 物品 是 开源 工程 ,如 果 一 名 程序 员 关 注 
某 个 开源 工程 ， 就 会 有 一 条 行为 记录 。 该 数据 集中 主要 的 内 容 数据 是 开源 项 目的 所 有 者 名 。 

表 3-5 比 较 了 内 容 过 滤 算 法 ContentItemKNN 和 协调 过 滤 算 法 ItemCF 在 MovieLens 和 GitHub 数 
据 集 上 的 离线 实验 性 能 。 为 了 对 比 ， 我 们 同时 加 入 了 Random 和 MostPopular 两 个 非 个 性 化 的 推荐 
算法 作为 基准 。 












































表 3-5 ”MovieLens/GitHub 数 据 集中 几 种 推荐 算法 性 能 的 对 比 

















方 ”法 准 确 率 召 回 率 覆 盖 率 流行 度 
MovieLens 
Random 0.631% 0.305% 100% 4.3855 
MostPopular 12.79% 6.18% 2.60% 7.7244 
ItemCF 22.28% 10.76% 18.84% 7.254526 
ContentItemKNN 6.78% 3.28% 19.06% 5.8481 
GitHub 
Random 0.000985% 0.00305% 84.18% 0.9878 
MostPopular 1.18% 4.36% 0.0299% 7,1277 
ItemCF 2.56% 9.44% 33.71% 2.9119 
ContentItemKNN 6.98% 25.75% 34.44% 1.7086 





从 MovieLens 数 据 集 上 的 结果 可 以 发 现 ,ContentItemKNN 的 准确 率 和 召回 率 仅仅 优 于 Random 
算法 ， 明 显 差 于 ItemCF 算 法 ， 甚 至 比 MostPopular 算 法 还 要 差 。 不 过 在 履 盖 率 和 流行 度 指标 上 
ContentItemKNN 却 优 于 ItemCF。 这 主要 是 因为 内 容 过 滤 算 法 忽视 了 用 户 行为 ， 从 而 也 忽视 了 物 
品 的 流行 度 以 及 用 户 行为 中 所 包含 的 规律 ， 所 以 它 的 精度 比较 低 ， 但 结果 的 新 络 度 却 比 较 高 。 

不 过 , 事情 不 是 绝对 的 。 如 果 看 GitHub 数 据 集 的 结果 , 我 们 会 发 现 完全 相反 的 现象 一 一 Content- 
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ItemKNN 在 所 有 指标 上 都 优 于 ItemCF。 这 主要 是 因为 GitHub 提 供 了 一 个 非常 强 的 内 容 特征 ， 就 是 开 
源 项 目的 作者 。 在 GitHub 中 , 程序 员 会 经 常会 关注 同一 个 作者 的 不 同 项 目 , 这 一 点 是 GitHub 数 据 
集 最 重要 的 特征 ,而 协同 过 滤 算 法 由 于 数据 稀 蚊 的 影响 ,不 能 从 用 户 行为 中 完全 统计 出 这 一 特征 ， 
所 以 协同 过 滤 算 法 反而 不 如 利用 了 先 验 信息 的 内 容 过 滤 算 法 。 这 一 点 也 说 明 , 如 果 用 户 的 行为 强 
烈 受 某 一 内 容 属性 的 影响 , 那么 内 容 过 滤 的 算法 还 是 可 以 在 精度 上 超过 协同 过 滤 算 法 的 。 不 过 这 
种 强 的 内 容 特 征 不 是 所 有 物品 都 具有 的 , 而且 需 要 丰富 的 领域 知识 才能 获得 , 所 以 很 多 时 候 内 容 
过 波 算 法 的 精度 比 协同 过 波 算 法 差 。 不 过 ,这 也 提醒 我 们 ， 如 果 能 够 将 这 两 种 算法 融合 ， 一 定 能 
够 获得 比 单独 使 用 这 两 种 算法 更 好 的 效果 。 

ECML/PKDD 在 2011 年 举办 过 一 次 利用 物品 内 容 信息 解决 冷 启动 问题 的 比赛 "。 该 比赛 提供 
了 物品 的 内 容 信息 , 希望 参赛 者 能 够 利用 这 些 内 容 信 息 尽 量 台 近 协同 过 滤 计 算出 的 相似 度 表 。 对 
内 容 推 荐 感 兴趣 的 读者 可 以 关注 该 比赛 的 相关 论文 。 

向 量 空间 模型 在 内 容 数据 丰富 时 可 以 获得 比较 好 的 效果 。 以 文本 为 例 , 如果 是 计算 长 文本 的 
相似 度 , 用 向 量 空间 模型 利用 关键 词 计算 相似 度 已 经 可 以 获得 很 高 的 精确 度 。 但是， 如 果 文 本 很 
短 ， 关键 词 很 少 ， 向 量 空间 模型 就 很 难 计算 出 准确 的 相似 度 。 举 个 例子 , 假设 有 两 篇 论文 ， 它们 
的 标题 分 别 是 “推荐 系统 的 动态 特性 ”和 “基于 时 间 的 协同 过 滤 算 法 研究 ”。 如 果 读 者 对 推荐 系 
统 很 熟悉 , 可 以 知道 这 两 篇 文章 的 研究 方向 是 类 似 的 , 但 是 它们 标题 中 没有 一 样 的 关键 词 。 其 实 ， 
它们 的 关键 词 虽 然 不 同 ， 但 却 是 相似 的 。“ 动 态 ” 和 “基于 时 间 ” 含 义 相 似 ,“ 协 同 过 泪 ” 是 “ 推 
荐 系统 ”的 一 种 算法 。 换 句 话说 , 这 两 篇 文章 的 关键 词 虽然 不 同 , 但 关键 词 所 属 的 话题 是 相同 的 。 
在 这 种 情况 下 ,首先 需要 知道 文章 的 话题 分 布 ， 然 后 才能 准确 地 计算 文章 的 相似 度 。 如 何 建立 文 
章 、 话 题 和 关键 词 的 关系 是 话题 模型 (topic model ) 研究 的 重点 。 

代表 性 的 话题 模型 有 LDA。 以 往 关 于 该 模型 的 理论 文章 已 经 很 多 了 , 本 书 不 准备 讨论 太 多 的 
数学 问题 ,所 以 这 里 准备 用 形象 的 语言 介绍 一 下 LDA, 并 用 工程 师 很 容易 懂 的 方法 介绍 这 个 算法 。 
关于 LDA 的 详细 理论 介绍 可 以 参考 DM Blei 的 论文 “Latent Dirichlet Allocation””。 

任何 模型 都 有 一 个 假设 ，LDA 作 为 一 种 生成 模型 ， 对 一 篇 文档 产生 的 过 程 进行 了 建 模 。 话 
题 模型 的 基本 思想 是 ,一 个 人 在 写 一 篇 文档 的 时 候 ， 会 首先 想 这 篇 文章 要 讨论 哪些 话题 ， 然 后 
思考 这 些 话题 应 该 用 什么 词 描述 ， 从 而 最 终 用 词 写 成 一 篇 文章 。 因 此 ， 文 章 和 词 之 间 是 通过 话 
题 联系 的 。 

LDA 中 有 3 种 元 素 ， 即 文档 、 话 题 和 词语 。 每 一 篇 文档 都 会 表现 为 词 的 集合 ， 这 称 为 词 袋 模 
型 (bag of words)。 每 个 词 在 一 篇 文章 中 属于 一 个 话题 。 今 DD 为 文档 集合 ,，D 了 [是 第 ;篇 文档 。w[i] 呆 
是 第 篇 文档 中 的 第 /个 词 。z[ 四 四 是 第 篇 文档 中 第 /个 词 属于 的 话题 。 

LDA 的 计算 过 程 包 括 初始 化 和 和 迭代 两 部 分 。 首 先 要 对 z 进 行 初始 化 ,而 初始 化 的 方法 很 简单 ， 
假设 一 共有 K 个 话题 ， 那 么 对 第 ;篇 文章 中 的 第 个 词 ， 可 以 随机 给 它 赋 了 予 一 个 话题 。 同 时 ,用 




























































































































































































GD 参见 http://tunedit.org/challenge/VLNetChallenge。 
@ 参见 David M. Blei、 Andrew Y. Ng、 Michael I. Jordan 的 “ Latent dirichlet allocation”( Journal of Machine Learning 
Research 3， 2003 )。 
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NWZ(w,z) 记 录 词 w 被 赋予 话题 z 的 次 数 ，NZD(z,q) 记 录 文 档 d 中 被 赋予 话题 z 的 词 的 个 数 。 
foreach document i in range(0,1D|): 
foreach word j in range(0, |D(i)|): 

z[i][j] = rand() %$ K 

[] [3] DEE]]# 

ZIw[il[j], zZ[i][j]]+ 
3 [i] [了 ] ] ++ 





在 初始 化 之 后 ， 要 通过 迭代 使 话题 的 分 布 收敛 到 一 个 合理 的 分 布 上 去 。 伪 代码 如 下 所 示 : 


while not converged: 








foreach document i in range(0, |D|): 
foreach word j in range(0, |D(i)|): 
NWwZz[w[lil][j], a 
NZ[z[i][j]]- 
NZD[ [i [il BLE]== 
z[i][j] = SampleTopic() 
NWZ[w[i] [j], Zz[i][j]]++ 
NZ[z[i][j]]++ 
NZD[z[i][j], DI[i]]++ 
LDA 可 以 很 好 地 将 词组 合成 不 同 的 话题 。 这 里 我 们 引用 David M. Blei 在 论文 中 给 出 的 一 个 实 


验 结果 。 他 利用 了 一 个 科学 论文 摘要 的 数据 集 ， 该 数据 集 包 含 16 333 篇 新 闻 ， 共 23 075 个 不 同 的 
单词 。 通过 LDA， 他 计算 出 100 个 话题 并 且 在 论文 中 给 出 了 其 中 4 个 话题 排名 最 高 ( 也 就 是 p(wlz) 
最 大 ) 的 15 个 词 。 从 图 3-12 所 示 的 聚 类 结果 可 以 看 到 ，LDA 可 以 较 好 地 对 词 进行 聚 类 ， 找 到 每 个 
词 的 相关 词 。 














“Arta” ‘Budgets” “Children” “Education” 
NEW MILLION CHILDREN SCHOOL 
FILM TAX WOMEN STUDENTS 
SHOW PROGRAM PEOPLE SCHOOLS 
MUSIC BUDGET CHILD EDUCATION 
MOVIE BILLION YEARS TEACHERS 
PLAY FEDERAL FAMILIES HIGH 
MUSICAL YEAR WORK PUBLIC 
BEST SPENDING PARENTS TEACHER 
ACTOR NEW SAYS BENNETT 
FIRST STATE FAMILY MANIGAT 
YORK PLAN WELFARE NAMPHY 
OPERA MONEY MEN STATE 
THEATER PROGRAMS PERCENT PRESIDENT 
ACTRESS GOVERNMENT CARE ELEMENTARY 
LOVE CONGRESS LIFE HAITI 

3-12 ”通过 LDA 对 词 进行 聚 类 的 结 





在 使 用 LDA 计 算 物品 的 内 容 相似 度 时 , 我 们 可 以 先 计算 出 物品 在 话题 上 的 分 布 , 然后 利用 两 
个 物品 的 话题 分 布 计 算 物 品 的 相似 度 。 比 如 ， 如 果 两 个 物品 的 话题 分 布 相似 ， 则 认为 两 个 物品 具 
有 较 高 的 相似 度 ， 反 之 则 认为 两 个 物品 的 相似 度 较 低 。 计 算 分 布 的 相似 度 可 以 利用 KL 散 度 ”: 





GD 参见 http://en.wikipedia.org/wiki/Kullback-Leibler_divergence。 
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| 9) 2 


其 中 p 和 4 是 两 个 分 布 ，KL 散 度 越 大 说 明 分 布 的 相似 度 越 低 。 


3.5 ”发 挥 专家 的 作用 


很 多 推荐 系统 在 建立 时 , 既 没 有 用 户 的 行为 数据 ,也 没有 充足 的 物品 内 容 信息 来 计算 准确 的 
物品 相似 度 。 那么 ,为 了 在 推荐 系统 建立 时 就 让 用 户 得 到 比较 好 的 体验 , 很 多 系统 都 利用 专家 进 




















行 标注 。 这 方面 的 代表 系统 是 个 怕 














化 网 络 


电台 Pandora 和 电影 推荐 网 站 Jinni。 














Pandora 是 一 个 给 用 户 播放 音乐 的 个 性 化 电台 应 用 。 众 所 周知 ， 计 算 音 乐 之 间 的 相似 度 是 比 
较 困 难 的 。 首先 , 音乐 是 多 媒体 , 如 果 从 音频 分 析 入 手 计算 歌曲 之 间 的 相似 度 , 则 技术 门槛 很 高 ， 
而 且 也 很 难 计算 得 令 人 满意 。 其 次 , 仅仅 利用 歌曲 的 专辑 、 歌 手 等 属性 信息 很 难 获得 令 人 满意 的 
歌曲 相似 度 表 ， 因 为 一 名 歌手 、 一 部 专辑 往往 只 有 一 两 首 好 歌 。 为 了 解决 这 个 问题 ，Pandora 雇 
用 了 一 批 届 计 算 机 的 音乐 人 进行 了 一 项 称 为 音乐 基因 的 项 目 ”"。 他 们 听 了 几 万 名 歌手 的 歌 ， 并 对 
这 些 歌 的 各 个 维度 进行 标注 。 最 终 ， 他 们 使 用 了 400 多 个 特征 ”( Pandora 称 这 些 特征 为 基因 )。 标 
注 完 所 有 的 歌曲 后 ， 每 首 歌 都 可 以 表示 为 一 个 400 维 的 向 量 ， 然 后 通过 常见 的 向 量 相似 度 算 法 可 


























以 计算 出 歌曲 的 相似 度 。 













































































和 Pandora 类 似 ，Jinni 也 利用 相似 的 想法 设计 了 电影 基因 系统 ， 让 专家 给 电影 进行 标注 。Jinni 
网 站 对 电影 基因 项 目 进 行 了 介绍 ?”。 图 3-13 是 Jinni 中 专家 给 《功夫 熊猫》 标注 的 基因 。 
从 Mood: Audience: 
Feel Good ~ Humorous ~ Exciting ~ Stylized Family Outing ~ Kids 
困 plot 1 Praise 
Anti Heroes ~ Goofy Hero ~ Master Warrior Award Winner ~ Blockbuster ~ Critically Acclaimed 
Heroic Mission ~ Danger ~ Heroes Ped Style: 
Master Villain ~ Good Versus Evil fi Martial Arts ~ All Star Cast 
四 Genres: 四 Atitudes: 
Animation ~ Comed Family ~ Hollywood Tone Semi Serious ~ Fantastic ~ Fast 
Action ~ Adventure 2 Look 
© Time/Period Computer Animated 
Ancient History © Flag: 
» Place: Violent Content 
Asia™ China 

















截取 自 Jinni 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 3-13 ”Jinni 中 专家 给 《功夫 熊猫 》 标 注 的 基因 

















人 参见 “About The Music Genome Project”"， 地 址 为 http:/www.pandora.com/mgp.shtml。 
@ 参见 http:/en.wikipedia.org/wiki/List of Music Genome Project attributes。 





@ 参见 http://www.jinni.com/movie-genome.html。 
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可 以 看 到 ， 这 里 的 基因 包括 如 下 分 类 。 
口 心情 (Mood) ”表示 用 户 观看 电影 的 心情 ， 比 如 对 于 《功夫 熊猫 》 观 众 会 觉得 很 幽默 ， 
很 兴奋 。 
口 剧情 (Plot〉 ”包括 电影 剧情 的 标签 。 
口 类 别 (Genres) “表示 电影 的 类 别 ， 主 要 包括 动画 片 、 喜 剧 片 、 动 作 片 等 分 类 。 
口 时 间 (Time/Period) ”电影 故事 发 生 的 时 间 。 
口 地 点 (Place) ”电影 故事 发 生 的 地 点 。 
口 观众 〈Audience) ”电影 的 主要 观众 群 。 
口 获奖 (Praise) ”电影 的 获奖 和 评价 情况 。 
口 风格 (Style〉 功夫片 、 全 明星 阵容 等 。 
口 态度 (Attitudes) ”电影 描述 故事 的 态度 。 
口 画面 (Look) ”电脑 拍摄 的 画面 技术 ， 比 如 《功夫 熊猫》 是 用 电脑 动画 制作 的 。 
口 标记 (Flag) ”主要 表示 电影 有 没有 暴力 和 色情 内 容 。 
Jinni 在 电影 基因 工程 中 采用 了 半 人 工 、 半 自动 的 方式 。 首 先 ， 它 让 专家 对 电影 进行 标记 ， 
个 电影 都 有 大 约 $0 个 基因 ， 这 些 基因 来 自 大 约 1000 个 基因 库 。 然 后 ， 在 专家 标记 一 定 的 样本 后 ， 
Jinni 会 使 用 自然 语言 理解 和 机 器 学 习 技 术 , 通过 分 析 用 户 对 电影 的 评论 和 电影 的 一 些 内 容 属性 对 
影 (特别 是 新 电影 ) 进行 自己 的 标记 。 同 时 ，Jinni 也 设计 了 让 用 户 对 基因 进行 反馈 的 界面 , 希 
望 通过 用 户 反馈 不 断 改进 电影 基因 系统 。 
总 之 ，Jinni 通 过 专家 和 机 器 学 习 相 结 合 的 方法 解决 了 系统 冷 启动 问题 。 
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推荐 系统 的 目的 是 联系 用 户 的 兴趣 和 物品 ， 这 种 联系 需要 依赖 不 同 的 媒介 。GroupLens 在 一 
篇 文章 "中 表示 目前 流行 的 推荐 系统 基本 上 通过 3 种 方式 联系 用 户 兴趣 和 物品 。 如 图 4-1 所 示 ， 第 
一 种 方式 是 利用 用 户 喜 欢 过 的 物品 , 给 用 户 推 荐 与 他 喜欢 过 的 物品 相似 的 物品 , 这 就 是 前 面 提 到 
的 基于 物品 的 算法 。 第 二 种 方式 是 利用 和 用 户 兴 趣 相似 的 其 他 用 户 , 给 用 户 推荐 那些 和 他 们 兴 
爱好 相似 的 其 他 用 户 喜 欢 的 物品 , 这 是 前 面 提 到 的 基于 用 户 的 算法 。 除 了 这 两 种 方法 ,第 三 种 重 
要 的 方式 是 通过 一 些 特征 ( feature ) 联系 用 户 和 物品 ， 给 用 户 推 荐 那些 具有 用 户 喜 欢 的 特征 的 物 
品 。 这 里 的 特征 有 不 同 的 表现 方式 ， 比 如 可 以 表现 为 物品 的 属性 集合 ( 比如 对 于 图 书 ， 属 性 集合 
包括 作者 、 出 版 社 、 主 题 和 关键 词 等 )， 也 可 以 表现 为 隐语 义 向 量 (latent factor vector )， 这 可 以 
通过 前 面 提出 的 隐语 义 模 型 习 得 到 。 本 章 将 讨论 一 种 重要 的 特 和 


喜欢 相似 
一 一 一 一 物品 



























































































































































j 户 人 y j 户 喜欢 物品 
喜欢 ,具有 2” 特征 包含 























本 图 根据 “Tagsplanations : Explaining Recommendations using Tags” 一 文中 的 
插图 重新 绘制 ， 本 图 的 著作 权 归 原著 作 权 人 所 有 


图 4-1 ”推荐 系统 联系 用 户 和 物品 的 儿 种 途径 


根据 维基 百科 的 定义 >， 标 签 是 一 种 无 层次 化 结构 的 、 用 来 描述 信息 的 关键 词 ， 它 可 以 用 来 
描述 物品 的 语义 。 根据 给 物品 打 标 签 的 人 的 不 同 , 标签 应 用 一 般 分 为 两 种 : 一 种 是 让 作者 或 者 专 
家 给 物品 打 标 签 ; 男 一 种 是 让 普通 用 户 给 物品 打 标 签 ， 也 就 是 UGC ( User Generated Content， 用 
户 生成 的 内 容 ) 的 标签 应 用 。UGC 的 标签 系统 是 一 种 表示 用 户 兴 趣 和 物品 语义 的 重要 方式 。 当 一 
个 用 户 对 一 个 物品 打上 一 个 标签 , 这 个 标签 一 方面 描述 了 用 户 的 兴趣 , 另 一 方面 则 表示 了 物品 的 
语义 ， 从 而 将 用 户 和 物品 联系 了 起 来 。 因 此 本 章 主 要 讨论 UGC 的 标签 应 用 , 研究 用 户 给 物品 打 标 
签 的 行为 ， 探 讨 如 何 通过 分 析 这 种 行为 给 用 户 进行 个 性 化 推荐 。 


























































































































人 文章 名 是 “Tagsplanations : Explaining Recommendations using Tags”。 
@ 参见 http:/en.wikipedia.org/wiki/Tag_ (metadata)。 
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4.1 UGC 标签 系统 的 代表 应 用 


UGC 标 签 系统 是 很 多 Web 2.0 网 站 的 必要 组 成 部 分 ， 本 节 将 讨论 使 用 UGC 标 签 系统 的 代表 网 
站 一 一 UGC 标 签 系 统 的 鼻祖 Delicious、 网 站 CiteULike .音乐 网 站 Last.ftm 视频 网 站 Hulu、 
书 和 电影 评论 网 站 豆 状 等。 下面 将 分 别 介 绍 这 些 应 用 。 





4.1.1 Delicious 


Delicous 可 算是 标签 系统 里 的 开山 鼻祖 ， 它 允许 用 户 给 互联 网 上 的 每 个 网 页 打 标 签 ， 从 而 通 
过 标签 重新 组 织 整 个 互联 网 。 图 4-2 是 Delicious 中 被 用 户 打 上 recommender、system 标 签 最 多 的 网 
页 ,这些 网 页 反应 了 用 户 心 目 中 和 推荐 系统 最 相关 的 网 页 。 图 4-3 是 Delicious 中 “ 豆 办 电台 ”这 个 
网 页 被 用 户 打 的 最 多 的 标签 ， 可 以 看 到 这 些 标 签 确 实 从 各 个 角度 准确 地 描述 了 “ 豆 办 电台 ”这 个 


























二 





me delicious hi xvector » TT EE 


results for 'recommender' and 'system' 





related tags 


tags recommender x system Xx typeatag 


recent | popular 


Recommender system - Wikipedia, the free encyclopedia 


recommendation recommender recommendations system 。 wikipedia 





Duine Framework - Recommender Software Toolkit ava 


recommendation java opensource Software duine 
xlvector - Recommender System 

blog recommendations datamining technology system 
Design of recommender systems 


recommendation design recommender presentation research 


ACM Recommender Systems 2008 -- Home 


conference recommendation recommender research acm 


截取 自 Delicious， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
4-2 Delicious 中 被 打上 recommender 和 system 标 签 的 网 页 




















kol 


着 电台 








music radio douban 。” 豆 淮 音乐 web2.0 电台 china community fm music douban webapp 
截取 自 Delicious， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 4-3 ”Delicious 中 “豆瓣 电台 ”网 页 被 用 户 打 的 最 多 的 标签 
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4.1.2 CiteULike 


CiteULike 是 一 个 著名 的 论文 书签 网 站 ， 它 允许 研究 人 员 提 交 或 者 收藏 自己 感 兴趣 的 论文 并 
且 给 论文 打 标签 ， 从 而 帮助 用 户 更 好 地 发 现 和 自己 研究 领域 相关 的 优秀 论文 。 我 们 知道 ,研究 人 
员 搜 索 自 己 研 究 领 域内 值得 参考 的 论文 是 很 费时 费力 的 工作 ， 而 CiteULike 通 过 群体 智能 ， 主 每 
个 研究 人 员 对 自己 了 解 的 论文 进行 标记 , 借 此 帮助 其 他 研究 人 员 更 好 更 快 地 发 现 自己 感 兴趣 的 论 
文 。 图 4-4 展 示 了 CiteULike 中 一 篇 有 关 推 荐 系统 评测 的 文章 以 及 用 户 给 这 篇 文章 打 过 最 多 的 标签 ， 
可 以 发 现 ， 最 多 的 两 个 标签 是 collaborative-filtering ( 协同 过 滤 ) 和 evaluate ( 评测 )， 确 实 比较 准 
确 地 反应 了 这 篇 论文 的 主要 内 容 。 
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截取 自 CiteULike 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 4-4 ”CiteULike 中 一 篇 论文 的 标签 








4.1.3 Last.fm 


Last.fm 是 一 家 著名 的 音乐 网 站 , 它 通 过 分 析 用 户 的 听 歌 行为 预测 用 户 对 音乐 的 兴趣 , 从 而 给 
用 户 推荐 个 性 化 的 音乐 。 作 为 多 媒体 ,音乐 不 像 文本 那样 可 以 很 容易 地 分 析 内 容 信息 。 为 了 在 不 
进行 复杂 音频 分 析 的 情况 下 获得 音乐 的 内 容 信息 ，Lastfm 引 入 了 UGC 标 签 系 统 ， 让 用 户 用 标签 
标记 音乐 和 歌手 。 图 4-5 展 示 了 披 头 十 乐队 在 Last.fm 中 的 标签 云 ( tag cloud )。 从 这 个 标签 云 可 以 
看 到 , 披 头 士 应 该 是 一 个 英国 (british ) 的 传统 播 滚 乐队 ( classic rock ), 流行 于 20 世 纪 60 年 代 ( 60s )。 




















Music » The Beatles > Tags 


Tags 


60s 70s _ acoustic alternative alternative rock awesome beat beatles bestband 


ever blues british british invasion british psychedelia british rock britpop 


classic classic pop classic rock classics england english 


experimental favorite favorite artists favorites favourites folk funk funky genius 
groovy hardrock indie indierock jazz legend legends liverpool love male vocalists 
merseybeat metal oldies overrated Pop pop rock pop-rock progressive rock 
psychedelic psychedelic pop psychedelic rock rock rock and roll rockn roll 


rock'n'roll singer-songwriter soul the beatles thebest uk 





[or] 
截取 自 Last fm 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 


图 4-$ ”Lastfm 中 披 头 士 乐队 的 标签 云 
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4.1.4 豆 办 


豆 办 是 中 国 著名 的 评论 和 社交 网 站 , 同时 也 是 中 国 个 性 化 推荐 领域 的 领军 企业 之 一 。 豆 办 在 
个 性 化 推荐 领域 进行 了 广泛 尝试 , 标签 系统 也 是 其 尝试 的 领域 之 一 。 它 允 许 用 户 对 图 书 和 电影 打 
标签 ， 借 此 获得 图 书 和 电影 的 内 容 信息 和 语义 ， 并 用 这 种 信息 改善 推荐 效果 。 图 4-6 展 示 了 《 数 
据 挖掘 导论 》 在 豆 光 被 用 户 打 标 签 的 情况 。 如 图 所 示 , 最 多 的 几 个 标签 分 别 是 数据 挖掘 、 计 算 机 、 
计算 机 科学 、 数 据 分 析 、IT 数 据 分 析 等 。 这 些 标签 准确 地 概括 了 这 本 书 的 内 容 信息 。 


数据 挖掘 导论 

















作者 : Pang-Ning Tan / Michael Steinbach /Vip 实 廊 请 语 i7 89 

in Kumar {21 人 评价 ) 

译 者 : 范 明 / 范 寺 建 。 47.6% 
出版 社 : 人 民 邮电 出 版 社 本 4 
- 出 版 年 : 2010-12-10 奖 实 安 0.0% 

页 数 : 463 x 0.0% 

定价 : 69.00 元 六 0.0% 

装帧: 平装 

ISBN: 9787115241009 

豆 儿 成 员 常用 的 标签 ( 共 19 个 ) 

数据 挖掘 (32) 计算 机 (5) 计算 机 科学 (4) 数据 分 析 (3) it 数据 分 析 (2) 2011(2) DataMining(1) @2011(1) 


截取 自 豆 办， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 4-6 ” 豆 兴 读 书 中 《数据 挖 气 导 论 》 一 书 的 常用 标签 





















































4.1.5 Hulu 


Hulu 是 美国 著名 的 视频 网 站 。 视 频 作为 一 种 最 为 复杂 的 多 媒体 , 获取 它 的 内 容 信 息 是 最 困难 
的 ， 因 此 Hulu 也 引入 了 用 户 标 签 系统 来 让 用 户 对 电视 剧 和 电影 进行 标记 。 图 4-7 展 示 了 美剧 《 察 
斯 医生 》 的 党 用 标签 ， 可 以 看 到 ，Hulu 对 标签 做 了 分 类 并 展示 了 每 一 类 最 热门 的 标签 。 从 类 型 
(Genre ) 看 ,《 豪 斯 医生 》 是 一 部 医学 片 (medical ); 从 时 间 看 , 这 部 剧 开始 于 2004 年 ; 从 人 物 看 ， 
这 部 美剧 的 主演 是 hugh laurie， 他 在 剧 中 饰演 的 人 物 是 greg house。 




















Tags (94) Search with tags: Q 
Genre 


Time 














截取 自 Hulu 网 站 ， 图 中 相关 内 容 的 著作 权 归 原作 权 人 所 有 
图 4-7 Hulu 中 《 豪 斯 医生 》 的 常用 标签 


从 前 面 的 各 种 应 用 可 以 看 到 ,标签 系统 在 各 种 各 样 的 ( 音乐、 视频 和 社交 等 ) 网 站 中 都 得 到 
了 广泛 应 用 。 标签 系统 的 最 大 优势 在 于 可 以 发 挥 群体 的 智能 , 获得 对 物品 内 容 信息 比较 准确 的 关 
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键 词 描述 ， 而 准确 的 内 容 信息 是 提升 个 性 化 推荐 系统 性 能 的 重要 资源 。 

关于 标签 系统 的 作用 ，GroupLen 的 Shilads Wieland Sen 在 MoveLens 电 影 推 荐 系统 上 做 了 更 为 
深入 的 、 基 于 问卷 调查 的 研究 。 在 博士 论文 "中 ， 他 探讨 了 标签 系统 的 不 同 作 用 ， 以 及 每 种 作用 
能 够 影响 多 大 的 人 群 ， 如 下 所 示 。 
口 表达 “标签 系统 帮助 我 表达 对 物品 的 看 法 。( 30% 的 用 户 同 意 。) 
口 组 织 ” 打 标签 帮助 我 组 织 我 喜欢 的 电影 。( 23% 的 用 户 同 意 。) 
口 学 习 打 标 签 玫 助 我 增加 对 电影 的 了 解 。( 27% 的 用 户 同 意 。) 
口 发 现 标签 系统 使 我 更 容易 发 现 喜 欢 的 电影 。( 19% 的 用 户 同意 。 ) 
口 决策 标签 系统 帮助 我 判定 是 否 看 某 一 部 电影 。( 14% 的 用 户 同 意 。 ) 

上 面 的 研究 证 明 , 标签 系统 确实 能 够 帮助 用 户 发 现 可 能 喜欢 的 电影 ， 而 这 正 是 个 性 化 推荐 系 
统 的 使 命 之 一 。 因 此 ， 本 章 将 对 如 何 发 挥 标签 在 个 性 化 推荐 中 的 作用 进行 深入 探讨 。 


4.2 ”标签 系统 中 的 推荐 问题 


打 标 签 作为 一 种 重要 的 用 户 行为 , 蕴含 了 很 多 用 户 兴趣 信息 ,因此 深入 研究 和 利用 用 户 打 标 
签 的 行为 可 以 很 好 地 指导 我 们 改进 个 性 化 推荐 系统 的 推荐 质量 。 同 时 ,标签 的 表示 形式 非常 简单 ， 
便于 很 多 算法 处 理 。 

标签 系统 中 的 推荐 问题 主要 有 以 下 两 个 。 
口 如 何 利 用 用 户 打 标签 的 行为 为 其 推荐 物品 ( 基于 标签 的 推荐 ) ? 
口 如 何在 用 户 给 物品 打 标 签 时 为 其 推荐 适合 该 物品 的 标签 ( 标签 推荐 ) ? 
为 了 研究 上 面 的 两 个 问题 ， 我 们 首先 需要 解答 下 面 3 个 问题 。 
口 用 户 为 什么 要 打 标 签 ? 
口 用 户 怎 么 打 标 签 ? 
口 用 户 打 什么 样 的 标签 ? 
4.2.1 ”用户 为 什么 进行 标注 

在 设计 基于 标签 的 个 性 化 推荐 系统 之 前 , 我 们 需要 深入 了 解 用 户 的 标注 行为 ( 即 打 标 签 的 行 
为 )， 知 道 用 户 为 什么 要 标注 ， 用 户 怎么 标注 ， 只 有 深入 了 解 用 户 的 行为 ,我 们 才能 基于 这 个 行 
为 设计 出 令 他 们 满意 的 个 性 化 推荐 系统 。 

Morgan Ames 人 研究 图 片 分 享 网 站 中 用 户 标注 的 动机 问题 ， 并 从 两 个 维度 进行 探讨 。” 首先 是 社 
会 维度 ， 有 些 用 户 标 注 是 给 内 容 上 传 者 使 用 的 (便于 上 传 者 组 织 自己 的 信息 ), 而 有 些 用 户 标注 是 
给 广大 用 户 使 用 的 (便于 帮助 其 他 用 户 找 到 信息 ) 另 一 个 维度 是 功能 维度 ， 有 些 标注 用 于 更 好 地 
组 织 内 容 , 方便 用 户 将 来 的 查找 , 而 另 一 些 标注 用 于 传达 某 种 信息 , 比如 照片 的 拍摄 时 间 和 地 点 等 。 



































































































































Qa 博士 论文 为 “Nurturing Tagging Communities”。 
@) 参见 Morgan Ames 和 Mor Naaman 的 “Why we tag: motivations for annotation in mobile and online media”( CHI 2007， 
2007 )。 
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4.2.2 ”用户 如 何 打 标签 


在 互联 网 中 , 尽管 每 个 用 户 的 行为 看 起 来 是 随机 的 , 但 其 实 这 些 表面 随机 的 行为 背后 蕴含 着 
很 多 规律 。 这 一 节 将 通过 研究 Delicious 数 据 集 总 结 用 户 标注 行为 中 的 一 些 统计 规律 。 

德国 研究 人 员 公布 过 一 个 很 庞大 的 Delicious 数 据 集 ”, 该 数据 集 包含 2003 年 9 月 到 2007 年 12 月 
Delicious 用 户 4.2 亿 条 标签 行为 记录 。 本 节选 用 该 数据 集 2007 年 一 个 月 的 数据 进行 分 析 , 对 该 数据 
集 的 统计 特性 进行 研究 。 

前 面 几 章 都 提 到 ,用 户 行为 数据 集中 用 户 活 跃 度 和 物品 流行 度 的 分 布 都 遵循 长 尾 分 布 ( Power 
Law 分 布 )。 因 此 ， 我 们 首先 看 一 下 标签 流行 度 的 分 布 。 我 们 定义 的 一 个 标签 被 一 个 用 户 使 用 在 
一 个 物品 上 ， 它 的 流行 度 就 加 一 。 如 下 代码 计算 了 每 个 标签 的 流行 度 。 

def TagPopularity (records): 

tagfreqg = dict() 
for user,item,tag in records: 
if tag not in tagfreq: 
tagfreq[ltag] = 1 
else: 


tagfreq[tag] += 1 
return tagfreq 


如 图 4-8 所 示 ， 横 坐标 是 流行 度 k， 纵 坐标 是 数据 集中 流行 度 为 的 标签 总 数 n(k) 。 标 签 的 流 
行 度 分 布 也 呈现 非常 典型 的 长 尾 分 布 ， 它 的 双 对 数 曲 线 几乎 是 一 条 直线 。 
logn(k)=Qlogk+B=logk” .es 
n(k)=es .k=y:k" 
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图 4-8 ”标签 流行 度 的 长 尾 分 布 














GD 参见 http:/www.dai-labor.de/en/competence_centers/irml/datasets/。 
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4.2.3 ”用 户 打 什么 样 的 标签 


在 用 户 看 到 一 个 物品 时 , 我 们 希望 他 打 的 标签 是 能 够 准确 描述 物品 内 容 属 性 的 关键 词 , 但 用 
户 往往 不 是 按照 我 们 的 想法 操作 ， 而 是 可 能 会 给 物品 打上 各 种 各 样 奇 奇怪 怪 的 标签 。 

ScottA. Golder 总 结 了 Delicious 上 的 标签 ， 将 它们 分 为 如 下 几 类 。 
口 表明 物品 是 什么 ”比如 是 一 只 鸟 ， 就 会 有 “ 鸟 ”这 个 词 的 标签 ; 是 豆 兴 的 首页 ， 就 有 一 个 
标签 叫 “ 豆 为"; 是 乔布斯 的 首页 ， 就 会 有 个 标签 叫 “ 乔 布 斯 ”。 
口 表明 物品 的 种 类 比如 在 Delicious 的 书签 中 , 表示 一 个 网 页 类 别 的 标签 包括 article ( 文章 )、 
blog (博客 )、book ( 图书 ) 等 。 
口 表明 谁 拥有 物品 ”比如 很 多 博客 的 标签 中 会 包括 博客 的 作者 等 信息 。 
口 表达 用 户 的 观点 ”比如 用 户 认 为 网 页 很 有 趣 ， 就 会 打上 标签 funny ( 有 趣 )， 认 为 很 无 聊 ， 
就 会 打上 标签 boring ( 无 聊 )。 
口 用 户 相关 的 标签 、 比 如 my favorite (我 最 喜欢 的 )、my comment ( 我 的 评论 ) 等 。 
口 用 户 的 任务 ”比如 to read( 即将 阅读 )、job search( 找 工 作 ) 等 。 

很 多 不 同 的 网 站 也 设计 了 自己 的 标签 分 类 系统 ， 比 如 Hulu 对 视频 的 标签 就 做 了 分 类 。 图 4-9 
是 著名 的 美剧 《 豪 斯 医生 》 的 标签 。 可 以 看 到 ，Hulu 将 电视 剧 的 标签 分 成 了 如 下 几 类 。 
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截取 自 Hulu 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 4-9 ”著名 美剧 《 豪 斯 医生 》 在 视频 网 站 Hulu 上 的 标签 分 类 
口 类 型 (Genre) 主要 表示 这 个 电视 剧 的 类 别 ， 比 如 《 豪 斯 医生 》 属 于 医学 剧情 片 
( medical drama )。 
口 时 间 (Time) ”主要 包括 电视 剧 发 布 的 时 间 ， 有 时 也 包括 电视 剧 中 事件 发 生 的 时 间 ， 比 
如 20 世 纪 90 年 代 。 
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口 人 物 (People) “主要 包括 电视 剧 的 导演 、 演 员 和 剧 中 重要 人 物 等 。 
口 地 点 〈Place) ”剧情 发 生 的 地 点 ,或 者 视频 拍摄 的 地 点 等 。 

口 语言 (Language) ”这 部 电视 剧 使 用 的 语言 。 

口 奖项 (Awards) ”这 部 电视 剧 获得 的 相关 奖项 。 

口 其 他 〈Details) ”包含 不 能 归 类 到 上 面 各 类 中 的 其 他 所 有 标签 。 


4.3 ”基于 标签 的 推荐 系统 


用 户 用 标签 来 描述 对 物品 的 看 法 , 因此 标签 是 联系 用 户 和 物品 的 纽带 , 也 是 反应 用 户 兴 趣 的 
重要 数据 源 ， 如 何 利 用 用 户 的 标签 数据 提高 个 性 化 推荐 结果 的 质量 是 推荐 系统 研究 的 重要 课题 。 

豆 办 很 好 地 利用 了 标签 数据 ,， 它 将 标签 系统 融入 到 了 整个 产品 线 中 。 首 先 , 在 每 本 书 的 页 面 
上 , 豆 辩 都 提供 了 一 个 叫做 “ 豆 斩 成 员 和 常用 标签 ”的 应 用 , 它 给 出 了 这 本 书 上 用 户 最 常 打 的 标签 。 
同时 , 在 用 户 给 书 做 评价 时 , 豆 办 也 会 让 用 户 给 图 书 打 标 签 。 最 后 , 在 最 终 的 个 性 化 推荐 结果 里 ， 
豆 办 利用 标签 将 用 户 的 推荐 结果 做 了 聚 类 ,显示 了 对 不 同 标签 下 用 户 的 推荐 结果 , 从 而 增加 了 推 
荐 的 多 样 性 和 可 解释 性 。 

一 个 用 户 标签 行为 的 数据 集 一 般 由 一 个 三 元 组 的 集合 表示 ， 其 中 记录 (ui b) 表示 用 户 u 给 物 
品 寺 上 了 标签 bp。 当然 ,用户 的 真实 标签 行为 数据 远 远 比 三 元 组 表示 的 要 复杂 ， 比 如 用 户 打 标签 
的 时 间 、 用 户 的 属性 数据 、 物 品 的 属性 数据 等 。 但 是 本 章 为 了 集中 讨论 标签 数据 ， 只 考虑 上 面 定 
义 的 三 元 组 形式 的 数据 ， 即 用 户 的 每 一 次 打 标 签 行为 都 用 一 个 三 元 组 (用户 、 物品 、 标签 ) 表示 。 

本 章 将 采用 两 个 不 同 的 数据 集 评测 基于 标签 的 物品 推荐 算法 。 一 个 是 Delicious 数 据 集 ， 男 一 
个 是 CiteULike 数 据 集 。Delicious 数 据 集 中 包含 用 户 对 网 页 的 标签 记录 。 它 每 一 行 由 4 部 分 组 成 ， 
即时 间 、 用 户 ID 、 网 页 URL 、 标签 。 本 章 只 抽取 了 其 中 用 户 对 一 些 著 名 博客 网 站 网 页 ( Wordpress、 
BlogSpot、TechCrunch ) 的 标签 记录 。CiteULike 数 据 集 包 含 用户 对 论文 的 标签 记录 ， 它 每 行 也 由 
4 部 分 组 成 ， 即 物品 ID 、 用 户 ID 、 时 间 、 标 签 ， 本 章 选 取 了 其 中 稠密 的 部 分 。 最 终 两 个 数据 集 的 
统计 信息 如 表 4-1 所 示 ， 其 最 热门 的 20 个 标签 见 表 4-2。 









































































































































表 4-1 Delicious 和 CiteULike 数 据 集 的 基本 信息 

用 户 数 物 品 数 标 签 数 记 录 数 
Delicious 11 200 8791 42 233 405 665 
CiteULike 12 466 7318 23 068 409 220 


表 4-2 ”Delicious 和 CiteULike 数 据 集中 最 热门 的 20 个 标签 





Delicious CiteULike 
wordpress review 

blog network 

blogs bioinformatics 
design evolution 
google networks 
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( 续 ) 
Delicious CiteULike 
howto tagging 
plugin software 
web2.0 sequencing 
plugins social 
tutorial genome 
blogging genomics 
tips statistics 
art ngs 
music folksonomy 
linux human 
photography mirna 
webdesign microarray 
themes expression 
ubuntu clustering 
software metagenomics 


4.3.1 实验 设置 


本 节 将 数据 集 随机 分 成 10 份 。 这 里 分 割 的 键 值 是 用 户 和 物品 ， 不 包括 标签 。 也 就 是 说 ， 用 户 
对 物品 的 多 个 标签 记录 要 么 都 被 分 进 训练 集 ， 要 么 都 被 分 进 测 试 集 ,不 会 一 部 分 在 训练 集 ， 另 一 
部 分 在 测试 集中 。 然 后 ,我 们 挑选 1 份 作为 测试 集 ,， 剩 下 的 9 份 作为 训练 集 ， 通 过 学 习 训 练 集中 的 
用 户 标签 数据 预测 测试 集 上 用 户 会 给 什么 物品 打 标 签 。 对 于 用 户 u， 令 R(w) 为 给 用 户 u 的 长 度 为 N 
的 推荐 列表 ， 里 面包 含 我 们 认为 用 户 会 打 标 签 的 物品 。 令 7(w) 是 测试 集中 用 户 u 实 际 上 打 过 标签 
的 物品 集合 。 然 后 ,我 们 利用 准确 率 ( precision ) 和 召回 率 ( recall ) 评测 个 性 化 推荐 算法 的 精度 。 





















































picoision _ [RYNTE) 
recision = 一 一 一 一 一 
IR() 
Recall = ol 电 a 
Too| 








将 上 面 的 实验 进行 10 次 , 每 次 选择 不 同 的 测试 集 , 然后 将 每 次 实验 的 准确 率 和 召回 率 的 平均 
值 作为 最 终 的 评测 结果 。 

为 了 全 面 评测 个 性 化 推荐 的 性 能 ， 我 们 同时 评测 了 推荐 结果 的 覆盖 率 〈coverage )、 多 样 性 
( diversity ) 和 新 颖 度 。 

覆盖 率 的 计算 公式 如 下 : 





[VU RG) 


ueU 


1 
关于 多 样 性 ， 我 们 在 第 1 章 中 讨论 过 ， 多 样 性 的 定义 取决 于 相似 度 的 定义 。 在 本 章 中 ,我 们 





Coverage = 
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用 物品 标签 向 量 的 余弦 相似 度 度量 物品 之 间 的 相似 度 。 对 于 每 个 物品 i, item_tags [i] 存 储 了 物 
品 i 的 标签 向 量 ， 其 中 item_tags [i] [b] 是 对 物品 过 标签 b 的 次 数 ， 那 么 物品 jj 的 余弦 相似 度 
可 以 通过 如 下 程序 计算 。 


def CosineSim(item tags, i, j): 
ret = 0 
for b,wib in item tags[i].items(): 
if b in item tags[j]: 
ret += wib * item tags[j][b] 

















ni 


0 
0 


n] 

for b, w in item tags[i].items(): 
ni += W *w 

for b, w in item tags[j].items(): 
nj += W yx w 


i Fet se Qs 
return 0 
return ret / math.sart (ni * nj) 
在 得 到 物品 之 间 的 相似 度 度量 后 ， 我 们 通过 如 下 公式 计算 一 个 推荐 列表 的 多 样 性 。 4 


> Sim(item tags[il,item tags[/]) 


iER(u) je R(u), jzi 
Re 
2 
如 果 用 程序 实现 ， 代 码 如 下 : 


def Diversity (item tags, recommend_ items): 
ret = 0 
a | 


Diversity =1— 





for i in recommengd_items.keys(): 
for j in recommendq_items .keys() : 
i Ng 
continue 
ret += CosineSim(item tags, i, j) 
季 二 ==” 工 
return ret / (n * 1.0) 


推荐 系统 的 多 样 性 为 所 有 用 户 推 荐 列表 多 样 性 的 平均 值 。 
至 于 推荐 结果 的 新 颖 性 ,我 们 简单 地 用 推荐 结果 的 平均 热门 程度 ( AveragePopularity ) 度量 


对 于 物品 ti， 定义 它 的 流行 度 item_pop (i) 为 给 这 个 物品 打 过 标签 的 用 户 数 。 而 对 推荐 系统 ,我 
们 定义 它 的 平均 热门 度 如 下 : 








> > log(l +item pop(D) 
u ieER(u) 
多 


u ieER(u) 


AveragePopularity = 
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4.3.2 一 个 最 简单 的 算法 
拿 到 了 用 户 标 签 行为 数据 , 相信 大 家 都 可 以 想到 一 个 最 简单 的 个 性 化 推荐 算法 。 这 个 算法 的 


描述 如 下 所 示 。 

口 统计 每 个 用 户 最 常用 的 标签 。 

口 对 于 每 个 标签 ， 统 计 被 打 过 这 个 标签 次 数 最 多 的 物品 。 

口 对 于 一 个 用 户 ， 首 先 找到 他 常用 的 标签 ， 然 后 找到 具有 这 
个 用 户 。 

对 于 上 面 的 算法 ， 用 户 u 对 物品 i 的 兴趣 公式 如 下 : 


plu, i) > phi 











Ar 自 





文 些 标签 的 最 热门 物品 推 





? 谤 
3 
泌 


HH 





E 人 





这 里 ，B(w) 是 用 户 u 打 过 的 标签 集合 ，B() 是 物品 i 被 打 过 的 标签 集 
的 次 数 ，ns 是 物品 i 被 打 过 标签 b 的 次 数 。 本 章 用 SimpleTagBased 标 记 这 
在 Python 中 ， 我 们 遵循 如 下 约定 : 





信人 






































口 ， nub 是 用 户 u 打 过 标签 b 
文 个 算法 。 


口 用 records 存储 标签 数据 的 三 元 组 ， 其 中 records[i] = [user, item, tag]; 
口 用 user_tags 存储 n,,。， 其 中 user_tags[u][b] = ny; 
口 用 tag_items 存 储 n,，， 其 中 tag_items[b] [i] = npio 
如 下 程序 可 以 从 records 中 统计 出 user_tags 和 tag_items: 
def InitStat (records): 
user_tags = dict() 
tag_items = 
user_items = dict() 
for user, item, tag in records.items(): 
addValueToMat (user_tags, user, tag, 1) 
addVvalueToMat (tag_items, tag, item, 1) 
addValueToMat (user_items, user, item, 1) 
统计 出 user_tags 和 tag_items 之 后 ,我 们 可 以 通过 如 下 程序 对 用 户 进行 个 性 化 推荐 : 


def Recommend (user): 
recommengd_items = dict() 
tagged_items = user_items[user] 
for tag, wut in user_ tags[user].items(): 
for item, wti in tag_items[tag].items(): 
#if items have been tagged, do not recommend 
if item in tagged items: 
continue 
if item not in recommend_items: 
recommengd_items [iteml] wut * wti 
else: 
recommend_items[iteml] 


+= WuUt * wti 


return recommengd_items 





them 


我 们 在 Delicious 数 据 集 上 对 上 面 的 算法 进行 评测 ， 结 果 如 表 4-3 所 示 。 
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表 4-3 ”基于 标签 的 简单 推荐 算法 在 Delicious 数 据 集 上 的 评测 结果 





召 回 率 准 确 率 覆 盖 率 多 样 性 平均 热门 程度 
CiteULike 7.45% 2.25% 49.79% 0.7088 3.33 
Delicious 7.19% 1.24% 19.05% 0.6073 5.22 


4.3.3 ”算法 的 改进 
再 来 回顾 一 下 上 面 提出 的 简单 算法 ， 该 算法 通过 如 下 公式 预测 用 户 u 对 物品 的 兴 
plu,i) = pa pl, pTp,i 

仔细 研究 上 面 的 公式 可 以 发 现 很 多 缺点 ， 下 面 我 们 逐条 分 析 该 算法 的 缺点 并 提出 改进 意见 。 

1. TF-IDF 

前 面 这 个 公式 倾向 于 给 热门 标签 对 应 的 热门 物品 很 大 的 权重 , 因此 会 造成 推荐 热门 的 物品 给 
用 户 ， 从 而 降低 推荐 结果 的 新 颖 性 。 另 外 ， 这 个 公式 利用 用 户 的 标签 向 量 对 用 户 兴趣 建 模 ， 其 中 
每 个 标签 都 是 用 户 使 用 过 的 标签 ， 而 标签 的 权重 是 用 户 使 用 该 标签 的 次 数 。 这 种 建 模 方 法 的 缺点 
是 给 热门 标签 过 大 的 权重 ， 从 而 不 能 反应 用 户 个 性 化 的 兴趣 。 这 里 我 们 可 以 借鉴 TF-IDF 的 思想 ， 
对 这 一 公式 进行 改进 : 






















































































plu,i) = 


log( + no) 
这 里 ，nW 记录 了 标签 b 被 多 少 个 不 同 的 用 户 使 用 过 。 这 个 算法 记 为 TagBasedTFIDF。 
表 4-4 给 出 了 TagBasedTFIDF 在 Delicious 和 CiteULike 两 个 数据 集 上 的 离线 实验 性 能 。 和 表 4-3 
的 实验 结果 相对 比 ， 可 以 看 到 该 算法 在 所 有 指标 上 相 比 SimpleTagBased 算 法 都 有 提高 。 


表 4-4 Delicous 和 CiteULike 数 据 集 上 TagBasedTFIDF 的 性 能 














召 回 率 准 确 率 履 盖 率 多 样 性 平均 热门 程度 
CiteULike 11.02% 3.32% 63.92% 0.7469 3.20 
Delicious 8.33% 1.43% 23.95% 0.6455 5.08 





同 理 ， 我 们 也 可 以 借鉴 TF-IDF 的 思想 对 热门 物品 进行 惩罚 ， 从 而 得 到 如 下 公式 : 
六 Mp i 
phd > log(1+ 10) log(l+ NO ) 
其 中 ，w22 记录 了 物品 i 被 多 少 个 不 同 的 用 户 打 过 标签 。 这 个 算法 记 为 TagBasedTFIDF++。 
表 4-5 展 示 了 TagBasedTFIDF++ 算 法 的 离线 实验 性 能 。 和 TagBasedTFIDF 算 法 相 比 ,除了 多 样 
性 有 所 下 降 ， 其 他 指标 都 有 明显 提高 。 这 一 结果 表明 , 适当 惩罚 热门 标签 和 热门 物品 ,在 增进 推 
荐 结果 个 性 化 的 同时 并 不 会 降低 推荐 结果 的 离线 精度 。 














图 灵 社 区 会 员 臭 豆腐 (StinkBCQ@gmail.com) 专 享 尊重 版 权 





108 第 4 章 利用 用 户 标签 数据 





表 4-5 ”Delicous 和 CiteULike 数 据 集 上 TagBasedTFIDF++ 的 性 能 








召回 率 准 确 率 覆 盖 率 多 样 性 平均 热门 程度 
CiteULike 11.79% 3.56% 75.68% 0.7346 2.83 
Delicious 8.88% 1.53% 36.98% 0.6338 4.83 


2. 数据 稀 玉 C 性 

在 前 面 的 算法 中 , 用户 兴趣 和 物品 的 联系 是 通过 B(w) 门 BQ) 中 的 标签 建立 的 。 但是， 对 于 新 
用 户 或 者 新 物品 ， 这 个 集合 ( B(w) 门 BG) ) 中 的 标签 数量 会 很 少 。 为 了 提高 推荐 的 准确 率 ， 我 们 
可 能 要 对 标签 集合 做 扩展 ， 比 如 若 用 户 曾 经 用 过 “推荐 系统 ”这 个 标签 ,我 们 可 以 将 这 个 标签 的 
相似 标签 也 加 入 到 用 户 标 签 集 合 中 ， 比 如 “个 性 化 "、“ 协 同 过 滤 ” 等 标签 。 

进行 标签 扩展 有 很 多 方法 ， 其 中 党 用 的 有 话题 模型 (topic model )， 不 过 这 里 遵循 简单 的 原 
则 介绍 一 种 基于 邻 域 的 方法 。 

标签 扩展 的 本 质 是 对 每 个 标签 找到 和 它 相 似 的 标签 , 也 就 是 计算 标签 之 间 的 相似 度 。 最 简单 
的 相似 度 可 以 是 同义词 。 如 果 有 一 个 同义词 词典 ， 就 可 以 根据 这 个 词典 进行 标签 扩展 。 如 果 没 有 
这 个 词典 ， 我 们 可 以 从 数据 中 统计 出 标签 的 相似 度 。 

如 果 认 为 同一 个 物品 上 的 不 同 标签 具有 某 种 相似 度 , 那么 当 两 个 标签 同时 出 现在 很 多 物品 的 
标签 集合 中 时 ， 我 们 就 可 以 认为 这 两 个 标签 具有 较 大 的 相似 度 。 对 于 标签 gp， 令 MO) 为 有 标签 b 的 
物品 的 集合 ，n_ 了 b 计 为 给 物品 过 上 标签 b 的 用 户 数 ， 我 们 可 以 通过 如 下 余弦 相似 度 公式 计算 标签 
b 和 标签 b' 的 相似 度 : 




























































































sim(b,b’) = 2 evn ni 
py iEN(D) 12， 2 ieN(b’) ny,, 
表 4-6 展 示 了 利用 上 述 公 式 计算 出 的 、CiteULike 数 据 集中 recommender_system 标 签 的 相关 标 
签 。 可 以 看 到 ,相关 标签 列表 中 第 一 个 词 是 该 标签 的 复数 形式 ,下 面 的 标签 包含 该 词 的 缩写 recsys、 
collaborative filter ( 协同 过 滤 )， 都 是 和 recommender_system 非 常 相关 的 一 些 标签 。 同 样 ， 表 4-7 
展示 了 利用 Delicious 数 据 集 计算 的 和 标签 google 相 关 的 标签 。 如 表 所 示 ， 这 些 相关 标签 包含 诸如 
search 、indexing 这 些 和 谷歌 的 业务 非常 相关 的 标签 。 


表 4-6 ”CiteULike 数 据 集 中 recommender_system 的 相关 标签 




















标 签 相 似 度 
recommender _ Systems 0.558 394 161 
recommender 0.415 820 788 
recommendation 0.387 596 911 
recsys 0.351 025 321 
cf 0.328 168 796 
multidimensional 0.324 232 233 
recommend 0.318 880 412 
collaborative filtering 0.318 210 024 
music_recommendation 0.305 214 504 
recommenation systems 0.281 284 339 
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表 4-7” Delicious 数据 集中 google 的 相关 标签 





标 签 相 似 度 
Search 0.533 522 
searchengine 0.458 06 
robots.txt 0.394 027 
indexing 0.391 894 
googlebot 0.382 861 
search engines 0.379 196 
indexation 0.375 179 
bots 0.375 179 
opt-in/opt-out 0.375 08 
web_index 0.375 08 











为 了 验证 进行 标签 扩展 是 否 能 够 提高 推荐 系统 的 性 能 , 本 节 同 样 进行 了 实验 。 对 于 曾经 打 过 
的 标签 数 少 于 20 的 用 户 ,我 们 找到 其 所 打 标 签 的 相关 标签 ,然后 将 这 些 标签 聚合 排序 ,将 排序 结 
果 中 前 20 个 标签 作为 用 户 相关 的 标签 。 表 4-8 展 示 了 考虑 标签 扩展 后 的 推荐 算法 性 能 。 和 表 4-3 相 
比 ， 进 行 标签 扩展 确实 能 够 提高 基于 标签 的 物品 推荐 的 准确 率 和 召回 率 , 但 可 能 会 稍微 降低 推荐 
结果 的 覆盖 率 和 新 颖 度 。 


























表 4-8 考虑 标签 扩展 后 的 推荐 性 能 








召回 率 准确 率 覆 盖 率 多 样 性 平均 热门 程度 
CiteULike 12.38% 3.74% 74.60% 0.7133 2.92 
Delicious 9.04% 1.55% 37.09% 0.6261 4.85 


3. 标签 清理 

不 是 所 有 标签 都 能 反应 用 户 的 兴趣 。 比 如 , 在 一 个 视频 网 站 中 , 用 户 可 能 对 一 个 视频 打 了 一 
个 表示 情绪 的 标签 ， 比 如 “不 好 笑 ”， 但 我 们 不 能 因此 认为 用 户 对 “不 好 笑 ” 有 兴趣 ， 并 且 给 用 
户 推荐 其 他 具有 “不 好 笑 ” 这 个 标签 的 视频 。 相 反 ， 如 果 用 户 对 视频 打 过 “成 龙 ” 这 个 标签 ,我 
们 可 以 据 此 认为 用 户 对 成 龙 的 电影 感 兴趣 ， 从 而 给 用 户 推荐 成 龙 其 他 的 电影 。 同 时 , 标签 系统 里 
经 常 出 现 词 形 不 同 、 词义 相同 的 标签 ， 比如 recommender system 和 recommendation engine 就 是 两 个 
同义词 。 

标签 清理 的 另 一 个 重要 意义 在 于 将 标签 作为 推荐 解释 。 如 果 我 们 要 把 标签 呈现 给 用 户 , 将 其 
作为 给 用 户 推荐 某 一 个 物品 的 解释 ， 对 标签 的 质量 要 求 就 很 高 。 首 先 ， 这 些 标签 不 能 包含 没有 意 
义 的 停止 词 或 者 表示 情绪 的 词 ， 其 次 这 些 推荐 解释 里 不 能 包含 很 多 意义 相同 的 词语 。 
一 般 来 说 有 如 下 标签 清理 方法 : 
口 去 除 词 频 很 高 的 停止 词 ; 
口 去 除 因 词根 不 同 造成 的 同义词 ， 比 如 recommender system 和 recommendation system; 
口 去 除 因 分 隔 符 造 成 的 同义词 ， 比 如 collaborative filtering 和 collaborative-filtering。 




































































图 灵 社 区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 





110 第 4 章 利用 用 户 标 签 数据 














为 了 控制 标签 的 质量 , 很 多 网 站 也 采用 了 让 用 户 进行 反馈 的 思想 , 即 让 用 户 告诉 系统 某 个 标 
签 是 否 合 适 。MovieLens 在 实验 系统 中 就 采用 了 这 种 方法 。 关 于 这 方面 的 研究 可 以 参考 GroupLens 
的 Shilad Wieland Sen 同 学 的 博士 论文 "。 此 外 ， 电 影 推荐 网 站 Jinni 也 采用 了 这 种 方式 (如 网 4-10 
所 示 )。 当 然 ，Jinni 不 属于 UGC 的 标签 系统 ， 它 给 电影 的 标签 是 专家 赋予 的 ， 因 此 它 让 用 户 对 标 
签 进行 反馈 其 实 是 想 融 合 专家 和 广大 用 户 的 知识 。 























* Mood 
eel Good ~ Humorous ~ Exciting ~ Stylized 
四 plot 
Anti Heroes ~ Goofy Hero ~ Master Warrior 
Does this gene fit Kung Fu Panda? X 
Lo | 
0 Genres: 


Animation ~ Comedy ~ Family™ Hollywood Tone 
Action ~ Adventure 


© Time/Period: 








Ancient History 
截取 自 Jinni 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 4-10 ”Jinni 让 用 户 对 编辑 给 的 标签 进行 反馈 




















4.3.4 基于 图 的 推荐 算法 


前 面 讨论 的 简单 算法 很 容易 懂 ， 也 容易 实现 , 但 缺点 是 不 够 系统 化 和 理论 化 。 因 此 , 在 这 一 
节 中 我 们 主要 讨论 如 何 利用 图 模型 做 基于 标签 数据 的 个 性 化 推荐 。 

首先 , 我 们 需要 将 用 户 打 标 签 的 行为 表示 到 一 张 图 上 。 我 们 知道 , 图 是 由 顶点 、 边 和 边 上 的 
权重 组 成 的 。 而 在 用 户 标 签 数 据 集 上 ， 有 3 种 不 同 的 元 素 ， 即 用 户 、 物 品 和 标签 。 因 此 ， 我 们 需 
要 定义 3 种 不 同 的 顶点， 即 用 户 顶 点 、 物 品 顶 点 和 标签 顶点 。 然 后， 如 果 我 们 得 到 一 个 表示 用 户 u 
给 物品 霜 了 标签 6 的 用 户 标 签 行为 (u,i,b)， 那 么 最 自然 的 想法 就 是 在 图 中 增加 3 条 边 ， 首 先 需 要 在 
用 户 u 对 应 的 顶点 v(w) 和 物品 i 对 应 的 顶点 v(i) 之 间 增 加 一 条 边 ( 如果 这 两 个 顶点 已 经 有 边 相 连 ,， 那 
么 就 应 该 将 边 的 权重 加 1 )， 同 理 ， 在 v(w) 和 vw(Db) 之 间 和 需要 增加 一 条 边 ，v(i) 和 v(5) 之 间 也 需要 边 相 
连接 。 

图 4-11 是 一 个 简单 的 用 户 -物品 -标签 图 的 例子 。 该 图 包含 3 个 用 户 (A、B、C)、3 个 物品 (a、 
b、c ) 和 3 个 标签 (1、2、3 )。 

在 定义 出 用 户 - 物 品 -标签 图 后 , 我们 可 以 用 第 2 章 提 到 的 PersonalRank 算 法 计算 所 有 物品 节点 



































人 参见 Shilad Wieland Sen 的 “ Nurturing Tagging Communities”。 
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相对 于 当前 用 户 节 点 在 图 上 的 相关 性 , 然后 按照 相关 性 从 大 到 小 的 排序 , 给 用 户 推荐 排名 最 高 的 
NN 个 物品 。 





GE 


图 4-11 简单 的 用 户 -物品 -标签 图 的 例子 

















用 图 模型 解释 前 面 的 简单 算法 
在 介绍 了 图 模型 后 , 我 们 可 以 基于 图 模型 重新 思考 前 面 提 到 的 简单 算法 。 在 那个 算法 中 , 用 
户 对 物品 的 兴趣 公式 如 下 : 














a 


~ 


四 = 2 PGID) PI) 


这 个 公式 假定 用 户 对 物品 的 兴趣 通过 标签 传递 , 因此 这 个 公式 可 以 通过 一 个 比 本 节 前 面 介绍 
的 图 更 简单 的 图 建 模 ( 记 为 SimpleTagGraph )。 给 定 用 户 标 签 行为 记录 (wu,i,b)，SimpleTagGraph 会 
增加 两 条 有 向 边 ， 一 条 由 用 户 节点 v(w) 指 问 标 签 节 点 v(b)， 男 一 条 由 标签 节点 v(5) 指 向 物品 节点 
v(i)。 从 这 个 定义 可 以 看 到 ，SimpleTagGraph 相 对 于 前 面 提 到 用 户 - 物 品 -标签 图 少 了 用 户 节 点 和 
物品 节点 之 间 的 边 。 

4-12 就 是 一 个 简单 的 SimpleTagGraph 例 子 。 在 构建 了 SimpleTagGraph 后 ， 利 用 前 面 的 
PersonalRank 算 法 ， 令 和 = 1， 并 给 出 不 同 边 权 重 的 定义 ， 就 等 价 于 前 面 提 出 的 简单 推荐 算法 。 








(4, a, (4, c, 2)(4, c 3) 

(B, a, 1)(B, b, 3)(B, e, 3)(B, e, 4) 
(C, a, 1)(C, b, 2)(C, a, 4) 

(D, b, 3)(D, c, 2)(D, c, 3) 
图 4-12 SimpleTagGraph 的 例子 
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4.3.5 ”基于 标签 的 推荐 解释 


基于 标签 的 推荐 其 最 大 好 处 是 可 以 利用 标签 做 推荐 解释 , 这 方面 的 代表 性 应 用 是 豆瓣 的 个 性 
化 推荐 系统 。 图 4-13 展 示 了 豆 办 读书 的 个 性 化 推荐 界面 。 
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截取 自 豆 欠 ,图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 


图 4-13” 豆 办 读书 的 个 履 








E 化 推荐 应 用 














“豆瓣 猜 ”的 界面 
如 图 4-13 所 示 ， 豆 办 读书 推荐 结果 包括 两 部 分 。 上 面 是 一 个 标签 云 ， 表 示 用 户 的 兴 














分 布 ， 


标签 的 尺寸 越 大 ,表示 用 户 对 这 个 标签 相关 的 图 书 越 感 兴趣 。 从 图 中 上 方 的 标签 云 可 以 看 到 ,， 豆 


办 认为 我 对 “编程 、“ 机 器 学 习 ”、“ 软 件 开发 ” 
豆 办 认为 我 对 “东野 直 寿 ” 感 兴 
比较 感 兴趣 ， 所 以 豆 鸭 认为 我 对 “传记 ”““ 文 化 ”比较 感 兴趣 。 单 击 标签 云 中 的 每 一 个 标签 ， 都 
可 以 在 标签 云 下 方 得 到 和 这 个 标签 相关 的 图 书 推荐 , 比如 图 4-13 界 面 标签 云 下 面 就 展示 了 机 带 学 
习 相 关 的 图 书 推荐 。 

豆 准 这样 组 织 推荐 结果 页 面 有 很 多 好 处 ,首先 是 提高 了 推荐 结果 的 多 样 性 。 我们 知道 , 一 个 
用 户 的 兴趣 在 长 时 间 内 是 很 广泛 的 , 但 在 某 一 天 却 比 较 具体 。 因 此 , 我 们 如 果 想 在 某 一 天 击 中 用 


户 当 天 的 兴 








感 兴趣 , 这 是 因为 我 看 了 很 多 IT 技 术 方 面 的 图 书 ， 
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， 是 因为 我 看 了 好 几 本 他 的 侦 欣 小说， 同时 因为 我 对 人 文学 科 


， 是 非常 困难 的 。 而 豆瓣 通过 标签 云 ， 展 示 了 用 户 的 所 有 兴趣 ， 然 后 让 用 户 自 己 根 
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据 他 今天 的 兴趣 选择 相关 的 标签 ,得 到 推荐 结果 ,从 而 极 大 地 提高 了 推荐 结果 的 多 样 性 , 使 得 推 
荐 结果 更 容易 满足 用 户 多 样 的 兴趣 。 

同时 , 标签 云 也 提供 了 推荐 解释 功能 。 用 户 通 过 这 个 界面 可 以 知道 豆 辩 给 自己 推荐 的 每 一 本 
书 都 是 基于 它 认 为 自己 对 某 个 标签 感 兴趣 。 而 对 于 每 个 标签 , 用 户 总 能 通过 回忆 自己 之 前 的 行为 
知道 自己 是 否 真 的 对 这 个 标签 感 兴趣 。 

我 们 知道 , 要 让 用 户 直 观 上 感觉 推荐 结果 有 道理 是 很 困难 的 ,而 豆 办 将 推荐 结果 的 可 解释 性 
拆 分 成 了 两 部 分 , 首先 让 用 户 觉得 标签 去 是 有 道理 的 , 然后 让 用 户 觉得 从 某 个 标签 推荐 出 某 本 书 
也 是 有 道理 的 。 因为 生成 让 用 户 觉 得 有 道理 的 标签 云 比 生成 让 用 户 觉得 有 道理 的 推荐 图 书 更 加 人 简 
单 , 标签 和 书 的 关系 就 更 容易 让 用 户 觉 得 有 道理 ,从 而 让 用 户 最 终 觉得 推荐 出 来 的 书 也 是 很 有 道 
理 的 。 

GroupLens 的 研究 人 员 Jesse Vig 对 基于 标签 的 解释 进行 了 深入 研究 。"” 和 4.3.2 节 提出 的 算法 类 
似 ，Jesse Vig 将 用 户 和 物品 之 间 的 关系 变 成 了 用 户 对 标签 的 兴趣 ( tag preference ) 和 标签 与 物品 
的 相关 度 ( tag relevance )， 然 后 作者 用 同一 种 推荐 算法 给 用 户 推 荐 物品 ， 但 设计 了 4 种 标签 解释 
的 展示 界面 。 
口 RelSort 对 推荐 物品 做 解释 时 使 用 的 是 用 户 以 前 使 用 过 生物 品 上 有 的 标签 ， 给 出 了 用 户 
对 标签 的 兴趣 和 标签 与 物品 的 相关 度 ， 但 标签 按照 和 物品 的 相关 度 排序 。 
口 PrefSort 对 推荐 物品 做 解释 时 使 用 的 是 用 户 以 前 使 用 过 且 物 品 上 有 的 标签 ,给 出 了 用 
户 对 标签 的 兴趣 和 标签 与 物品 的 相关 度 ， 但 标签 按照 用 户 的 兴趣 程度 排序 。 
口 RelOnly 对 推荐 物品 做 解释 时 使 用 的 是 用 户 以 前 使 用 过 且 物 品 上 有 的 标签 ， 给 出 了 标签 
与 物品 的 相关 度 ， 且 标签 按照 和 物品 的 相关 度 排 序 。 
口 PrefOnly ”对 推荐 物品 做 解释 时 使 用 的 是 用 户 以 前 使 用 过 且 物 品 上 有 的 标签 ， 给 出 了 用 

户 对 标签 的 兴趣 程度 ， 且 标签 按照 用 户 的 兴趣 程度 排序 。 

然后 ， 作 者 对 用 户 设计 了 3 种 调查 问卷 。 首 先是 关于 推荐 解释 的 调查 问卷 ， 作 者 问 了 如 下 3 
个 问题 : 
口 推荐 解释 帮助 我 理解 这 部 电影 为 什么 会 被 推荐 给 我 : 对 于 这 个 问题 用 户 认为 RelSort> 
PrefOnly>=PrefSort>RelOnly。 
口 推荐 解释 帮助 我 判定 是 否 喜欢 推荐 的 电影 : 对 于 这 个 问题 用 户 认为 RelSort>PrefSort> 
PrefOnly>RelOnly。 
口 推荐 解释 帮助 我 判定 观看 这 部 电影 是 否 符合 我 现在 的 兴趣 : 对 于 这 个 问题 用 户 认为 

RelSort>PrefSort>RelOnly >PrefOnly。 

然后 , 作者 调查 了 用 户 对 不 同类 型 标签 的 看 法 。 作者 将 标签 分 为 主观 类 ( 比如 对 电影 的 看 法 ， 
如 表 4-9 所 示 ) 和 客观 类 ( 比如 对 电影 内 容 的 描述 ， 如 表 4-10 所 示 ) 作者 对 每 种 类 型 的 标签 同样 
问 了 上 面 3 个 问题 。 






















































































































































































人 参见 Jesse Vig、Shilad Wieland Sen 和 John Riedl 的 “Tagsplanations: Explaining Recommendations Using Tags”( ACM 
2009 Article，2009 )。 
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观 类 标签 。 











口 这 个 标签 帮助 我 理解 这 部 电影 为 什么 会 被 推荐 给 我 : 用 户 认 为 客观 类 标签 优 于 主观 类 标签 。 
口 这 个 标签 帮助 我 判定 是 否 喜 欢 推荐 的 电影 : 用 户 认为 客观 类 标签 优 于 主观 类 标签 。 




















口 这 个 标签 帮助 我 判定 观看 这 部 电影 是 否 符合 我 现在 的 兴趣 : 用 户 认为 客观 类 标签 优 于 主 


从 上 面 的 结果 可 以 发 现 ， 客 观 事 实 类 的 标签 优 于 主观 感受 类 标签 。 
最 后 , 作者 询问 了 用 户 对 4 种 不 同 推荐 解释 界面 的 总 体 满意 度 , 结果 显示 PrefOnly > RelSort > 











PrefSort > RelOnly。 
表 4-9 10 个 用 户 最 满意 的 主观 类 标签 ” 

标 签 认为 这 个 标签 好 的 人 所 占 比 例 
great soundtrack 90.9% 
fanciful 90.9% 
funny 90.0% 
poignant 88.9% 
witty 88.0% 
dreamlike 87.5% 
whimsical 87.5% 
dark 87.3% 
surreal 86.7% 
deadpan 84.2% 

表 4-10 ”10 个 用 户 最 满意 的 客观 类 标签 ” 

标 签 认为 这 个 标签 好 的 人 所 占 比 例 
afi-100 100.0% 
fantasy world 100.0% 
world war 11 100.0% 
sci-fi 95.2% 
action 94.4% 
psychology 93.8% 
disney 91.7% 
satirical 88.5% 
drama 87.5% 
satire 86.4% 











总 结 问卷 调查 的 结果 ， 作 者 得 出 了 以 下 结论 : 





样 的 作用 ; 


口 用 户 对 标签 的 兴 有 











好 对 帮助 用 户 理解 为 什么 给 他 推荐 某 个 物品 更 有 帮助 ; 
口 用 户 对 标签 的 兴趣 和 物品 标签 相关 度 对 于 帮助 用 户 判定 自己 是 否 喜 欢 被 推荐 物品 具有 同 











Q@ 该 表 引 用 自 Jesse Vig、Shilad Wieland Sen 和 John Riedl 的 论文 “Tagsplanations: Explaining Recommendations Using Tags”。 


@ 同上 。 
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口 物品 标签 相关 度 对 于 帮助 用 户 判定 被 推荐 物品 是 否 符合 他 当前 的 兴趣 更 有 帮助 ; 
口 客观 事实 类 标签 相 比 主观 感受 类 标签 对 用 户 更 有 作用 。 











4.4 给 用 户 推荐 标签 


当 用 户 浏览 某 个 物品 时 , 标签 系统 非常 希望 用 户 能 够 给 这 个 物品 打上 高 质量 的 标签 , 这 样 才 
能 促进 标签 系统 的 良性 循环 .因此 , 很 多 标签 系统 都 设计 了 标签 推荐 模块 给 用 户 推荐 标签 。 图 4-14 
展示 了 音乐 网 站 Lastfm 和 豆 淤 的 标签 推荐 系统 。 


添加 收藏 : 我 读 过 这 本 书 数据 挖 据 导论 





Add tags 





Secret Garden 给 个 评价 吧 ?( 可 选 ): 这 敲 离 访 六 力 莅 
(1995— present) 标签 多 个 标签 用 空格 分 隔 ): 

| 

i 


我 的 标签 : ”机 器 学 习 。 人 工 智能 算法， 数据 挖掘 ”社会 学 ”科普 ， 历史 传记 
相 忆 录 。 东野 圭 吾 ”社会 ”史记 明史 统计 当年 明月 ”图书 

人 物 科学 晚 清 上 唐 德 刚 

常用 标签 :数据 挖掘 ， 计算 机 算法 Data-Mining ”数据 挖掘 导论 ”神经 网 络 

信 工 智能 ， 计算 机 科学 IT 管理 























Suggested tags: new age * celtic * 


























截取 自 Last.fm 和 豆 状 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 4-14 Lastfm ( 左 ) 和 豆 斩 ( 右 ) 的 标签 推荐 系统 界面 


4.4.1 为 什么 要 给 用 户 推 荐 标签 
在 讨论 如 何 给 用 户 推荐 标签 之 前 , 首先 需要 了 解 为 什么 要 给 用 户 推 荐 标签 。 一 般 认为 , 给 用 
户 推荐 标签 有 以 下 好 处 。 
口 方便 用 户 输入 标签 ”让 用 户 从 键盘 输入 标签 无 疑 会 增加 用 户 打 标 签 的 难度 ， 这 样 很 多 用 
户 不 愿意 给 物品 打 标 签 ， 因 此 我 们 需要 一 个 辅助 工具 来 减 小 用 户 打 标 签 的 难度 ， 从 而 提 
高 用 户 打 标 签 的 参与 度 。 
口 提高 标签 质量 ”同一 个 语义 不 同 的 用 户 可 能 用 不 同 的 词语 来 表示 。 这 些 同义词 会 使 标签 
的 词 表 变 得 很 庞大 ， 而 且 会 使 计算 相似 度 不 太 准 确 。 而 使 用 推荐 标签 时 ， 我 们 可 以 对 词 
表 进 行 选 择 ， 首 先 保证 词 表 不 出 现 太 多 的 同义词 ， 同 时 保证 出 现 的 词 都 是 一 些 比较 热门 
的 、 有 代表 性 的 词 。 


























4.4.2 ”如 何 给 用 户 推 荐 标签 


用 户 u 给 物品 这 标签 时 , 我 们 有 很 多 方法 可 以 给 用 户 推 荐 和 物品 相关 的 标签 。 比 较 简 单 的 方 


法 有 4 种 。 
第 0 种 方法 就 是 给 用 户 u 推 荐 整个 系统 里 最 热门 的 标签 ( 这 里 将 这 个 算法 称 为 PopularTags )， 
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之 所 以 称 为 第 0 种 ， 是 因为 这 个 算法 太 简单 了 ， 以 至 于 不 能 称 为 一 种 标签 推荐 算法 。 令 tags [pb] 
为 标签 b 的 热门 程度 ， 那 么 这 个 算法 的 实现 如 下 : 


def RecommendPopularTags (user,item, tags, N): 
return sorted(tags.items(), key=itemgetter(1), reverse=True){[0:N] 


第 1 种 方法 就 是 给 用 户 u 推 荐 物品 i 上 最 热门 的 标签 ( 这 里 将 这 个 算法 称 为 ItemPopularTags )。 
令 item_tags[i] [b] 为 物品 被 打上 标签 b 的 次 数 ， 那么 这 个 算法 的 实现 很 简单 ， 具体 如 下 所 示 : 


def RecommendItemPopularTags (user,item, item tags, N): 
return sorted(item tags[item] .items(), key=itemgetter(1), reverse=True) [0:N] 


第 2 种 方法 是 给 用 户 u 推 荐 他 自己 经 常 使 用 的 标签 ( 这 里 将 这 个 算法 称 为 UserPopularTags )。 
令 user_tags [ul [pb] 为 用 户 u 使 用 标签 6 的 次 数 ， 那 么 这 个 算法 的 实现 如 下 所 示 : 


def RecommendUserPopularTags (user,item, user_ tags, N): 
return sorted(user tags[user].items(), key=itemgetter(1), reverse=True)[0:N] 


第 3 种 算法 是 前 面 两 种 的 融合 ( 这 里 记 为 HybridPopularTags )， 该 方法 通过 一 个 系数 将 上 面 的 
推荐 结果 线性 加 权 ， 然 后 生成 最 终 的 推荐 结果 。 这 个 算法 的 实现 代码 如 下 : 
def RecommendHybridPopularTags (user,item，user tags, item tags, alpha, N): 
max_user_tag weight = max(user tags[user] .values ()) 


for tag, weight in user tags[user].items(): 
ret [tagl = (1 - alpha) * weight / max_ user_ tag weight 





max_item tag weight = max(item tags[item] .values()) 
for tag, weight :in item tags[item].items(): 
if tay riot. Tn Tet 
ret[tag] = alpha * weight / max_item tag_ weight 
else: 
ret [tag]l += alpha * weight / max_item tag_ weight 
return sorted(ret[user].items(), key=itemgetter(1), reverse=True){[0:N] 


注意 在 上 面 的 实现 中 , 我 们 在 将 两 个 列表 线性 相 加 时 都 将 两 个 列表 按 最 大 值 做 了 归 一 化 , 这 
样 的 好 处 是 便于 控制 两 个 列表 对 最 终结 果 的 影响 , 而 不 至 于 因为 物品 非常 热门 而 淹没 用 户 对 推荐 
结果 的 影响 ,或 者 因为 用 户 非常 活路 而 淹没 物品 对 推荐 结果 的 影响 。 


4.4.3 ”实验 设置 


和 前 面 的 实验 一 样 , 我 们 用 同样 的 方法 将 数据 集 按照 9 : 1 分 成 训练 集 和 测试 集 , 然后 通过 训 
练 集 学 习 用 户 标 注 的 模型 。 需 要 注意 的 是 ， 这 里 切 分 数据 集 不 再 是 以 user、item 为 主键 ,而 是 以 
user、item、tag 为 主键 。 为 了 更 好 的 理解 如 何 切 分 数据 集 ， 请 参考 下 面 的 Python 代 码 : 


def SplitDatal(records, train, test): 
for user,item, tag in records: 
if random.randint (1,10) == 
test.append([user,item,tag]) 
else: 
train.append( [user,item,tag]) 
return [train, test] 
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对 于 测试 集中 的 每 一 个 用 户 物 品 对 (zx 六 , 我 们 都 会 推荐 N 个 标签 给 用 户 u 作 参考 。 令 R(wi) 为 我 
们 给 用 户 u 推 荐 的 应 该 在 物品 i 上 打 的 标签 集合 ， 令 T(i) 为 用 户 u 实 际 给 物品 计 ] 的 标签 的 集合 ， 
们 可 以 利用 准确 率 和 召回 率 评测 标签 推荐 的 精度 : 
之 (iDETest R(u,i) NTu,) 
> (u,i)eTest R(u,i) 
Recall pe >, (ui)e Test R(u,i) NN T(u, 中 
> (u,i)eTest T(u,i) 























Precision = 























实验 结果 
表 4-11 列 出 了 PopularTags 、UserPopularTags 、ItemPopularTags 3 种 算法 在 N = 10 时 的 准确 率 
和 召回 率 。 


表 4-11 3 种 标签 推荐 算法 在 N=10 时 的 准确 率 和 召回 率 























Delicious 
PopularTags UserPopularTags ItemPopularTags 
准确 率 7.32% 11.84% 23.80% 
召回 率 19.88% 32.16% 64.63% 
CiteULike 
准确 率 2.21% 10.85% 12.94% 
召回 率 7.75% 38.00% 45.33% 











如 表 中 结果 所 示 , ItemPopularTags 具 有 最 好 的 准确 率 和 召回 率 , 这 一 点 和 直观 想法 是 符合 的 。 
因为 用 户 的 兴趣 是 广泛 的 , 假设 用 户 对 编程 和 武侠 小 说 有 兴趣 , 那么 用 户 在 给 一 本 武侠 小 说 打 标 
签 时 ， 肯 定 不 会 参考 自己 对 编程 书 打 的 标签 ， 而 会 更 多 地 参考 关于 武侠 小 说 的 常用 标签 。 因 此 
ItemPopularTags 肯 定 比 UserPopularTags 的 精度 要 高 。 

下 面 来 看 一 下 HybridPopularTags 算 法 ， 表 4-12 给 出 了 HybridPopularTags 算 法 在 不 同 线性 融合 
系数 w 下 的 准确 率 和 召回 率 。 


表 4-12 ”HybridPopularTags 算 法 在 不 同 线性 融合 系数 a 下 的 准确 率 和 召回 率 









































Delicious CiteULike 
a 准确 率 召回 率 准确 率 召回 率 
0.0 11.84% 32.16% 10.85% 38.00% 
0.1 15.27% 41.48% 12.71% 44.53% 
0.2 16.71% 45.39% 13.82% 48.42% 
0.3 18.93% $51.41% 14.85% 52.04% 
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( 续 ) 
Delicious CiteULike 
a 准确 率 召回 率 准确 率 召回 率 
0.4 21.14% 57.42% 15.57% 54.55% 
0.5 22.74% 61.75% 16.01% 56.07% 
0.6 23.99% 65.15% 16.24% 56.90% 
0.7 24.82% 67.42% 16.07% 56.29% 
0.8 25.15% 68.30% 15.45% 54.12% 
0.9 24.95% 67.77% 14.60% 51.15% 
1.0 23.80% 64.63% 12.94% 45.33% 








如 表 4-12 所 示 ， 在 a=0.8 的 时 候 ，HybridPopularTags 取 得 了 最 好 的 准确 度 ( 准确 率 =25.15%， 
召回 率 =68.30% )。 而 且 这 个 精度 超过 了 单独 的 ItemPopularTags 和 UserPopularTags 算 法 的 精度 。 考 
虑 到 近 70% 的 精度 已 经 很 高 了 ， 因 此 很 多 应 用 在 给 用 户 推 荐 标签 时 会 直接 给 出 用 户 最 常用 的 标 
签 ， 以 及 物品 最 经 常 被 打 的 标签 。 比 如 豆 因 (如 图 4-15 所 示 )， 在 我 浏览 《MongoDB 权 威 指南 》 


一 书 时 ， 它 给 我 推荐 的 标签 分 为 两 类 。 























一 类 是 我 的 标签 ， 即 我 之 前 常用 的 标签 ,可 以 看 到 这 一 类 


中 包含 诸如 历史 、 传 记 等 和 MongoDB 毫 无 关系 的 标签 。 另 一 类 是 常用 标签 ， 即 别 的 用 户 给 
MongoDB 打 的 最 多 的 标签 ， 可 以 看 到 这 里 面 所 有 的 标签 都 是 和 MongoDB 相 关 的 。 











Eve 原作 名 : Mong9 
作者 : 闫 ] Kristti 
对 者 : 程 显 峰 
出 版 社 : 人民 邮 
出 版 年 : 20114 
页 数 : 172 
定价 : 39.00 元 
1S 











让 平装 
SBN: 97871 蔬 


想 读 在读， 读 过 评价 


2 写 笔记 2 写 书评 羊 加 入 购书 单 





MongoDB 权 威 指南 
一 添加 收藏 ; 我 读 过 这 本 书 


给 个 评价 吧 ?( 可 选 ) 敲 离 户 诊 实力 荐 


标签 多 个 标签 用 空格 分 隔 ): 


我 的 标签 : OReily nosql 社会 学 ”科普 ， 数据 挖掘 ”历史 传记 回忆录 
东野 圭 吾 ”社会 史记 明史 统计 当年 明月 ”图书 ”机 器 学 习 
信物 “科学 晚 清 唐人 德 刚 

常用 标签 : ”MongoDB ”数据 库 nosql OReilly 计算 机 
2011 Programming 


Web 编程 ”架构 








截取 自 豆 状 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 4-15” 豆 办 给 我 推荐 的 《MongoDB 权 威 指南 》 一 书 的 标签 


不 过 , 前 面 提 到 的 基于 统计 用 户 常用 标签 和 物品 常用 标签 的 算法 有 一 个 缺点 , 就 是 对 新 用 户 


或 者 不 热门 的 物品 很 难 有 推荐 结果 。 解 决 这 一 问题 有 两 个 思路 。 




















第 一 个 思路 是 从 物品 的 内 容 数据 中 抽取 关键 词 作 为 标签 。 这 方面 的 研究 很 多 , 特别 是 在 上 下 





文 广告 领域 "。 本 书 3.4 节 也 介绍 了 生成 关键 词 向 量 的 一 些 方法 。 





人 参见 Wen-tau Yih 、Joshua Goodman 和 Vitor R. Carvalho 的 “Finding Advertising Keywords on Web Pages”( ACM 2006 
Article，2006 )。 
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第 二 个 思路 是 针对 有 结果 ， 但 结果 不 太 多 的 情况 。 比 如 《MongoDB 权 威 指南 》 一 书 只 有 一 
个 用 户 曾经 给 它 打 过 一 个 标签 nosql， 这 个 时 刻 可 以 做 一 些 关 键 词 扩展 ， 加 入 一 些 和 nosql 相 关 的 
标签 , 比如 数据 库 \ 编程 等 。 实现 标签 扩展 的 关键 就 是 计算 标签 之 间 的 相似 度 。 关于 这 一 点 , 4.3.3 
节 已 经 进行 了 深入 探讨 。 


4.4.4 基于 图 的 标签 推荐 算 ; 


图 模型 同样 可 以 用 于 标签 推荐 。 在 根据 用 户 打 标 签 的 行为 生成 图 之 后 ( 如 图 4-11 所 示 )， 我 
们 可 以 利用 PersonalRank 算 法 进行 排名 。 但 这 次 遇 到 的 问题 和 之 前 不 同 。 这 次 的 问题 是 ， 当 用 户 u 














(vk) = v(u)) 
na = 141- QV(K) = v0)) 
0 (其 他 ) 
也 就 是 说 ， 只 有 用 户 u 和 物品 对 应 的 项 点 有 非 0 的 启动 概率 ， 而 其 他 顶点 的 启动 概率 都 为 0。 
在 上 面 的 定义 中 ，v(w) 和 v() 的 启动 概率 并 不 相同 ，v(w) 的 启动 概率 是 a， 而 v(i) 的 启动 概率 是 1-a。 
参数 a 可 以 通过 离线 实验 选择 。 


4.5 扩展 阅读 


本 章 主 要 讨论 了 UGC 标 签 在 推荐 系统 中 的 应 用 。 标签 作为 描述 语义 的 重要 媒介 , 无 论 是 对 于 
描述 用 户 兴趣 还 是 表示 物品 的 内 容 都 有 很 重要 的 意义 。 标 签 在 推荐 系统 中 的 应 用 主要 集中 在 两 个 
问题 上 ,一 个 是 如 何 利用 用 户 打 标签 的 行为 给 用 户 推荐 物品 , 另 一 个 是 如 何 给 用 户 推荐 标签 。 本 
章 在 深入 分 析 用 户 标签 行为 的 基础 上 对 这 两 个 问题 进行 了 深入 探讨 。 

关于 标签 的 问题 ， 最 近 几 年 在 学 术 界 获得 了 广泛 关注 。ECML/PKDD 在 2008 年 曾经 推出 过 基 
于 标签 的 推荐 系统 比赛 "。 在 这 些 研 究 中 涌现 了 很 多 新 的 方法 ， 比 如 张 量 分 解 ”( tensor 
factorization )、 基 于 LDA 的 算法 ”、 基 于 图 的 算法 "等 。 不 过 这 些 算法 很 多 具有 较 高 的 复杂 度 ， 在 
实际 系统 中 应 用 起 来 还 有 很 多 实际 的 困难 需要 解决 。 

GroupLens 的 研究 人 员 给 MovieLens 系 统 做 了 很 多 标签 方面 的 工作 。Shilad Sen 在 论文 ”中 研究 



























































Q@ 比赛 介绍 见 http://www.kde.cs.uni-kassel.de/ws/rsdc08/program.html。 

@ 参见 Panagiotis Symeonidis 、Alexandros Nanopoulos 和 Yannis Manolopoulos 的 “Tag recommendations based on tensor 
dimensionality reduction”( ACM 2008 Article, 2008 )。 

@ 参见 Ralf Krestel 、 Peter Fankhauser 和 Wolfgang Nejdl 的 “Latent dirichlet allocation for tag recommendation”( ACM 
2009 Article，2009 )。 

人 由 参见 Andreas Hotho 、 Robert Jischke 、 Christoph Schmitz 和 Gerd Stumme 的 “Folkrank: A ranking algorithm for 
folksonomies”( Proc. FGIR 2006，2006 )。 

@@ 参见 Shilad Wieland Sen 、 Jesse Vig 和 John Riedl 的 “Tagommenders: Connecting Users to Items through Tags”( ACM 
2009 Article，2009 )。 
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了 如 何 利用 标签 联系 用 户 和 物品 并 给 用 户 进行 个 性 化 电影 推荐 。Jesse Vig 在 论文 "中 研究 了 如 何 
利用 标签 进行 推荐 解释 ， 他 将 用 户 和 物品 之 间 的 关系 转化 为 用 户 对 标签 的 兴趣 ( tag preference ) 
以 及 标签 和 物品 的 相关 度 (tag relevance ) 两 种 因素 。 同 时 他 们 研究 了 如 何 对 标签 进行 清理 ”， 以 
及 如 何 选择 合适 的 标签 进行 解释 。 

















人 参见 Jesse Vig 、Shilad Wieland Sen 和 John Riedl 的 “Tagsplanations: Explaining Recommendations Using Tags”( ACM 


2009 Article ，2009 )。 
@ 参见 Shilad Wieland Sen 、F. Maxwell Harper 、Adam LaPitz 和 John Riedl 的 “The quest for quality tags”( ACM 2007 


Article, 2007 )。 
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本 章 之 前 提 到 的 推荐 系统 算法 主要 集中 研究 了 如 何 联系 用 户 兴趣 和 物品 , 将 最 符合 用 户 兴 
的 物品 推荐 给 用 户 ， 但 这 些 算法 都 忽略 了 一 点 ， 就 是 用 户 所 处 的 上 下 文 (context )。 这 些 上 下 文 
包括 用 户 访问 推荐 系统 的 时 间 、 地 点 、 心 情 等 ， 对 于 提高 推荐 系统 的 推荐 系统 是 非常 重要 的 。 比 
如 , 一 个 卖 衣 服 的 推荐 系统 在 冬天 和 夏天 应 该 给 用 户 推 荐 不 同 种 类 的 服装 。 推荐 系统 不 能 因为 用 
户 在 夏天 喜欢 过 某 件 T 恤 ， 就 在 冬天 也 给 该 用 户 推 荐 类 似 的 T 恤 。 再 举 个 例子 ， 当 用 户 在 中 关 村 
打开 一 个 美食 推荐 系统 时 ,如 果 这 个 推荐 系统 推荐 的 餐馆 都 是 中 关 村 附近 的 , 显然 推荐 结果 更 加 
能 够 令 用 户 满意 。 上 下 文 影响 用 户 兴趣 的 例子 还 有 很 多 ， 比 如 用 户 上 班 时 和 下 班 后 的 兴趣 会 有 区 
别 , 用户 在 平时 和 周末 的 兴趣 会 有 区 别 ， 用 户 和 父母 在 一 起 与 和 同学 在 一 起 时 的 兴趣 有 区 别 ,其 
至 用 户 在 上 厕所 时 阅读 的 文章 和 在 办 公 桌 旁 阅 读 的 文章 也 是 不 同 的 。 因此 , 准确 了 解 用 户 的 上 下 
文 信息 ， 并 将 该 信息 应 用 于 推荐 算法 是 设计 好 的 推荐 系统 的 关键 步骤 。 

关于 上 下 文 推荐 的 研究 ， 可 以 参考 Alexander Tuzhilin" 教 授 的 一 篇 综述 “Context Aware 
Recommender Systems”。Alexander Tuzhilin 教 授 最 近 几 年 和 他 的 学 生 们 对 上 下 文 相关 的 推荐 算法 
进行 了 深入 研究。 他 们 在 论文 中 提 到 了 一 个 上 下 文 推荐 系统 的 例子 Sourcetone 音 乐 推荐 系统 
( 如 图 5-1 所 示 )。 该 系统 会 让 用 户 选 择 自 己 现在 的 心情 ， 然 后 它 根 据 用 户 选择 的 心情 给 用 户 推 荐 
音乐 。 这 里 ,心情 是 一 种 重要 的 上 下 文 ， 用 户 在 不 同 的 心情 下 会 选择 不 同 的 音乐 。 当 然 ， 当 用 户 
在 某 个 时 间 点 刚刚 使 用 推荐 系统 时 ， 系 统 很 难 猜 出 用 户 当 时 是 什么 心情 。 因 此 Sourcetone 采 取 了 
让 用 户主 动 告诉 系统 他 现在 心情 的 方式 , 然后 系统 根据 用 户 当前 的 心情 并 综合 考虑 其 历史 兴趣 推 
荐 符合 他 要 求 的 合适 歌曲 。 

和 心情 类 似 的 上 下 文 还 有 很 多 ,以 看 视频 为 例 。 用 户 是 在 上 班 时 间 看 还 是 在 下 班 后 看 ， 用 户 
是 在 家 里 看 还 是 在 单位 看 , 用 户 是 自己 一 个 人 看 还 是 和 好 友 一 起 看 , 用 户 是 和 同学 一 起 看 还 是 和 
父母 一 起 看 ,用户 是 喝 着 啤酒 看 还 是 吃 着 鸡翅 看 ,这 些 都 是 上 下 文 信息 ,而 且 这 些 上 下 文 对 用 户 
当时 观看 什么 电视 剧 都 有 很 大 影响 。 

本 章 我 们 主要 讨论 时 间 上 下 文 ,并 简单 介绍 一 下 地 点 上 下 文 , 讨论 如 何 将 时 间 信 息 和 地 点 信 
息 建 模 到 推荐 算法 中 , 从 而 让 推荐 系统 能 够 准确 预测 用 户 在 某 个 特定 时 刻 及 特定 地 点 的 兴趣 。 本 
章 仍然 研究 TopN 推 荐 , 即 如 何 给 用 户 生 成 一 个 长 度 为 X 的 推荐 列表 ， 而 该 列表 包含 了 用 户 在 某 一 
时 刻 或 者 某 个 地 方 最 可 能 喜欢 的 物品 。 






































































































































GD 个 人 主页 为 http://people.stern.nyu.edu/atuzhili/。 
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Click for full player 


四 加 BB help 
四 加 rate 


SN 
Now Playing 00:00 ， 
Artisl 如 2 了 
本 人 














截取 自 Sourcetone， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 











图 $-1 sourcetone.com 个 性 化 音乐 推荐 系统 ， 该 图 右 侧 的 圆 盘 可 以 让 用 户 选择 现在 的 心情 





5.1 时 间 上 下 文 信 息 


本 节 将 重点 讨论 上 下 文 信息 中 最 重要 的 时 间 上 下 文 信息 。 本 节 首 先 介绍 各 种 不 同 的 时 间 效 
应 , 然后 研究 如 何 将 这 些 时 间 效 应 建 模 到 推荐 系统 的 模型 中 , 最 后 通过 实际 数据 集 对 比 不 同 模型 
的 效果 。 


5.1.1 ”时间 效应 简介 


时 间 是 一 种 重要 的 上 下 文 信息 ,对 用 户 兴趣 有 着 深入 而 广泛 的 影响 。 一般 认 为 ,时 间 信 息 对 
用 户 兴趣 的 影响 表现 在 以 下 几 个 方面 。 

口 用 户 兴趣 是 变化 的 ”我 们 这 里 提 到 的 用 户 兴趣 变化 是 因为 用 户 自身 原因 发 生 的 变化 。 比 
如 随 着 年 龄 的 增长 ， 用 户 小 时 候 喜 欢 看 动画 片 ， 长 大 了 喜欢 看 文艺 片 。 一 位 程序 员 随 着 
工作 时 间 的 增加 ， 逐 渐 从 阅读 入 门 书籍 过 渡 到 阅读 专业 书籍 。 一 个 人 参加 工作 了 ， 工 作 
后 的 兴趣 和 学 生 时 代 的 兴趣 相 比 发 生 了 变化 。 那 么 ， 如 果 我 们 要 准确 预测 用 户 现在 的 兴 
趣 ， 就 应 该 关注 用 户 最 近 的 行为 ， 因 为 用 户 最 近 的 行为 最 能 体现 他 现在 的 兴趣 。 当 然 ， 
考虑 用 户 最 近 的 兴趣 只 能 针对 渐变 的 用 户 兴趣 ， 而 对 突变 的 用 户 兴趣 很 难 起 作用 ， 比 如 
用 户 突然 中 奖 了 。 

口 物品 也 是 有 生命 周期 的 ”一 部 电影 刚 上 映 的 时 候 可 能 被 很 多 人 关注 ， 但 是 经 久 不 衰 的 电 
影 是 很 少 的 ， 很 多 电影 上 映 后 不 久 就 被 人 们 淡忘 了 。 此 外 ， 物 品 也 可 能 受 新 闻 事件 的 影 
响 ， 比 如 一 部 已 经 被 淡忘 的 电影 会 因为 突然 被 某 个 新 闻 事件 涉及 而 重新 热门 起 来 。 因 此 ， 
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当 我 们 决定 在 某 个 时 刻 给 某 个 用 户 推荐 某 个 物品 时 ， 需 要 考虑 该 物品 在 该 时 刻 是 否 已 经 

过 时 了 。 比 如 ， 我 们 给 一 个 NBA 迷 推荐 10 年 前 的 某 个 NBA 新 闻 显 然 是 不 太 合适 的 〈 当然 

这 也 不 一 定 ， 比 如 用 户 当 时 就 是 在 寻找 旧 的 NBA 新 闻 时 )。 不 同系 统 的 物品 具有 不 同 的 生 
命 周 期 ， 比 如 新 闻 的 生命 周期 很 短暂 ， 而 电影 的 生命 周期 相对 较 长 。 

口 季节 效应 ”季节 效应 主要 反映 了 时 间 本 身 对 用 户 兴 趣 的 影响 。 比 如 人 们 夏天 吃 冰 湛 淋 ， 
冬天 吃 火 锅 ， 夏天 穿 T 性 ， 冬 天 穿 棉衣 。 当 然 , 我 们 也 不 排除 有 特别 癖好 的 人 存在 , 但 大 
部 分 用 户 都 是 遵循 这 个 规律 的 。 除 此 之 外 ， 节 日 也 是 一 种 季节 效应 : 每 年 的 圣诞 节 ， 人 
们 都 要 去 购物 ; 每 年 的 奥斯卡 颁奖 礼 ， 人 们 都 要 关注 电影 。2011 年 ACM 推 荐 大 会 的 一 个 
研讨 会 曾经 举办 过 一 次 上 下 文 相关 的 电影 推荐 算法 比赛 ”, 该 比赛 要 求 参赛 者 预测 数据 集 
中 用 户 在 奥斯卡 颁奖 礼 附近 时 刻 的 行为 。 关 注 季 节 效 应 的 读者 可 以 关注 一 下 这 个 研讨 会 
上 发 表 的 相关 论文 


5.1.2 时间 效应 举例 


下 面 通 过 一 些 例 子 体会 一 下 时 间 对 用 户 兴趣 的 影响 。 我 们 通过 Google Insights 工 具 对 时 间 效 
应 进行 一 些 分 析 。Google Insights 提 供 了 某 个 搜索 词 自 2004 年 以 来 的 搜索 频率 曲线 ， 我 们 可 以 通 
过 该 曲线 发 现 一 些 用 户 兴趣 变化 的 例子 。 
图 5-2 展 示 了 3 个 著名 的 社交 网 站 名 字 自 2004 年 以 来 在 google 上 的 搜索 量变 化 曲线 ， 从 图 中 可 
以 看 到 ，facebook 的 搜索 量 直 线 上 升 ， 而 myspace 在 2007 年 达到 顶峰 后 开始 下 降 ，twitter 的 搜索 量 
也 在 不 断 增 长 ， 但 增长 趋势 明显 低 于 facebook。 这 种 变化 的 产生 主要 源 于 用 户 兴趣 的 变化 。 



























































在 Google 网 页 搜索 上 的 关注 度 : facebook, myspace, twitter 
美国 , 2004 年 年 至 今 



































所 有 类 别 > 在 线 社区 总 计 © 
a ne facebook NE 37 
子 类 别 : 社交 网 络 , 博客 资源 与 服务 , 个 性 化 内 容 myspace WE 18 

个 Google 搜索 解析 的 分 类 方法 已 于 2011 年 12 月 份 更 新 。 了 解 详情 twitter 12 

侈 针对 地 域 分 配方 案 的 改进 已 生效 ， 适 用 期 最 早 可 追溯 至 2011 年 1 月 1 日 。 了 解 详情 
































关注 度 随时 间 变化 的 趋势 回 预测 加 © 
关注 度 。 相对 于 类 别 “ 在 线 社区 "的 张 跌 了 了解 这 些 数 字 的 仿 义 
| 
80 
60 
Sh 40 
® ® 4 
Ss 2 i ES ~ 0 
2004 征 2005 年 2008Fm 0 oo 
[ 预 测 结果 前 的 最 后 一 个 雪 值 和 者 的 是 部 分 数据 > 因此 可 能 会 发 生变 化 。 了 和解 详 情 
上 = 预 惠 值 完全 根据 过 去 的 值 推断 得 出 。 了 亡 详 情 

















图 $-2 facebook 、twitter 和 myspace 3 个 词 的 搜索 变化 曲线 ? 











GD 详 见 http://2011.camrachallenge.com/。 
@ 图 5-2 中 标号 为 的 曲线 对 应 facebook， 标 号 为 @ 的 曲线 对 应 myspace， 标 号 为 @ 的 曲线 对 应 twitter。 











编者 注 
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图 $-3 展 示 了 2004 年 以 来 著名 手机 品牌 的 搜索 量变 化 曲线 。 从 图 中 可 以 看 到 两 个 现象 。 第 一 
是 自 2006 年 以 来 ，iPhone 的 搜索 量 增长 明显 ， 反 映 了 越 来 越 多 的 用 户 开始 喜 欢 iPhone。 另 一 个 现 
象 是 几乎 所 有 品牌 的 手机 在 年 底 时 搜索 量 都 有 一 个 尖峰 , 这 是 因为 圣诞 节 附 近 手 机 的 销售 量 会 大 
增 ， 因 此 这 是 一 种 典型 的 节日 效应 。 

















在 Google 网 页 搜索 上 的 关注 度 : iphone, nokia, motorola, samsung 


























总 计 @ 
全 球 , 2004 年 年 至 今 pa 
h 之 et h mm 29 
类 别 ; 互联 网 与 电信 , 计算 机 与 电子 产品 , 购物 , 艺术 与 娱乐, 汽车 与 车 辆 , 游戏 二 的 
人 多 Google 搜索 解析 的 分 类 方法 已 于 2011 年 12 月 份 更 新 。 了 解 详情 motorola 11 
全 针对 地 域 分 配方 案 的 改进 已 生效 ， 适 用 期 最 早 可 追溯 至 2011 年 1 月 1 日 。 了 解 详情 samsung WN 29 
关注 度 随时 间 变 化 的 趋势 预 则 人 @ 重要 资讯 


了 韶 这 些 教主 的 信义 
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图 表 上 的 最 后 一 个 数值 参考 的 星 部 分 数据 ,因此 可 能 会 发 生变 化 。 了 饲 详 | 


图 5-3 手机 品牌 的 搜索 量变 化 曲线 ” 









































图 5-4 展 示 了 一 些 食品 的 搜索 量变 化 曲线 。 该 图 突显 了 季 市 效应 对 用 户 行为 的 影响 。 比 如 ， 
用 户 在 夏天 吃 冰淇淋 (该 图 由 美国 用 户 统计 得 出 , 如 果 是 南半球 的 澳大利亚 , 结论 应 该 是 相反 的 )， 
冬天 喝 汤 和 咖啡 。 对 于 巧克力 ,可 以 明显 看 到 两 个 尖峰 ， 一 个 是 圣诞 节 附 近 ， 而 另 一 个 是 情人 节 
附近 ， 这 也 体现 了 巧克力 的 销售 具有 典型 的 节日 效应 。 




















在 Google 网 页 搜索 上 的 关注 度 : ice cream, soup, chocolate, coffee 
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关注 度 随 时 间 变 化 的 趋势 回 预测 加 回 重要 资讯 





解 这 些 数字 的 全 
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图 表 上 的 最 后 一 个 教 值 低 考 的 星 部 分 数据 ， 因 此 可 能 会 发 生变 化 。 了 和 解 详 情 

















图 5-4 一 些 食品 相关 搜索 词 的 搜索 量变 化 曲线 ? 








Oa 标号 为 的 曲线 对 应 ijphone， 标 号 为 @ 的 曲线 对 应 samsung， 标 号 为 @ 的 曲线 对 应 nokia。 编者 注 
@@ 标号 为 四 的 曲线 对 应 coffee ( 咖啡 )， 标 号 为 @ 的 曲线 对 应 chocolate ( 巧克力 )， 标 号 为 @@ 的 曲线 对 应 soup ( 汤 )， 
标号 为 @ 的 曲线 对 应 ice cream ( 冰淇淋 ) 一 一 编者 注 
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5.1.3 ”系统 时 间 特 性 的 分 析 


在 给 定时 间 信 息 后 , 推荐 系统 从 一 个 静态 系统 变 成 了 一 个 时 变 的 系统 , 而 用 户 行为 数据 也 变 
成 了 时 间 序 列 。 研 究 一 个 时 变 系 统 , 需要 首先 研究 这 个 系统 的 时 间 特 性 。 本 节 将 通过 研究 时 变 的 
用 户 行为 数据 集 来 研究 不 同类 型 网 站 的 时 间 特 性 。 包含 时 间 信 息 的 用 户 行为 数据 集 由 一 系列 三 元 
组 构成 ， 其 中 每 个 三 元 组 (wi, 代 表 了 用 户 u 在 时 刻 t 对 物品 产生 过 行为 。 在 给 定数 据 集 后 ， 本 节 
通过 统计 如 下 信息 研究 系统 的 时 间 特 性 。 

口 数据 集 每 天 独立 用 户 数 的 增长 情况 ”有 些 网 站 处 于 快速 增长 期 ， 它 们 每 天 的 独立 用 户 数 

都 在 线性 〈 甚 至 呈 指 数 级 ) 增加 。 而 有 些 网 站 处 于 平稳 期 ， 每 天 的 独立 用 户 数 都 比较 平 
稳 。 还 有 一 些 网 站 处 于 衰落 期 ， 每 天 的 用 户 都 在 流失 。 在 3 种 不 同 的 系统 中 用 户 行为 是 不 
一 样 的 ， 因 此 我 们 首先 需要 确定 系统 的 增长 情况 。 

口 系统 的 物品 变化 情况 ”有 些 网 站 ， 比 如 新 闻 网 站 ， 每 天 都 会 出 现 大 量 新 的 新 闻 ， 而 每 条 

热门 的 新 闻 其 时 间 周 期 都 不 会 太 长 ,今天 热门 的 新 闻 也 许 明天 就 被 人 忘记 了 "。 

口 用 户 访问 情况 ”有些 网 站 用 户 来 一 次 就 永远 不 来 了 ， 有些 网 站 用 户 每 周 来 一 次 ， 而 有 些 
网 站 用 户 每 天 都 来 。 为 了 度量 这 些 特性 ， 我 们 可 以 统计 用 户 的 平均 活跃 天 数 ， 同 时 也 可 
以 统计 相隔 7 天 来 系统 的 用 户 的 重合 度 。 

1. 数据 集 的 选择 

本 节 将 利用 Delicious 数 据 集 进行 离线 实验 以 评测 不 同 算法 的 预测 精度 ,该 数据 集 包 含 950 000 
个 用 户 在 2003 年 9 月 到 2007 年 12 月 间 对 网 页 打 标 签 的 行为 。 该 数据 集中 包含 132 000 000 个 标签 和 
420 000 000 条 标签 行为 记录 。 该 数据 集 每 行 是 一 条 标签 行为 记录 ， 由 4 部 分 组 成 一 一 用 户 ID、 日 
期 、 网 页 URL 和 标签 ,代表 了 一 个 用 户 在 某 一 天 对 某 个 网 页 打上 了 某 个 标签 的 行为 。 因 为 网 页 由 
URL 标 识 ， 因 此 可 以 根据 域名 将 网 页 分 成 不 同 的 类 别 。 本 节选 取 了 5 个 域名 对 应 的 网 页 ， 将 整个 
数据 集 分 成 5 个 不 同 的 数据 集 加 以 研究 。 这 5 个 域名 是 nytimes.com、sourceforge.net、blogspot.com、 
wikipedia.org、youtube.com。 表 5-1 给 出 了 本 节 所 用 数据 集 的 基本 统计 信息 。 


表 5-1 ”离线 实验 数据 集 的 基本 统计 信息 





































































































数 据 集 用 户 数 物 品 数 稀 玻 度 
nytimes 4947 7856 99.65% 
youtube 4551 7526 99.72% 
wikipedia 7163 14770 99.86% 
sourceforge 8547 5638 99.65% 
blogspot 8703 10107 99.82% 


2. 物品 的 生存 周期 和 系统 的 时 效 性 
不 同类 型 网 站 的 物品 具有 不 同 的 生命 周期 比如 新 闻 的 生命 周期 很 短 , 而 电影 的 生命 周期 很 
长 。 我 们 可 以 用 如 下 指标 度量 网 站 中 物品 的 生命 周期 。 





























人 参见 “The Lifespan of a link”， 地 址 为 http://bits.blogs.nytimes.com/2011/09/07/the-lifespan-of-a-link/?ref=technology。 
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口 物品 平均 在 线 天 数 ” 如 果 一 个 物品 在 某 天 被 至 少 一 个 用 户 产生 过 行为 ， 就 定义 该 物品 在 


口 




















这 一 天 在 线 。 因 此 ， 我 们 可 以 通过 物品 的 平均 在 线 天 数 度量 一 类 物品 的 生存 周期 。 考 虑 
到 物品 的 平均 在 线 天 数 和 物品 的 流行 度 应 该 成 正比 ， 因 此 给 定 一 个 数据 集 ， 我 们 首先 将 
物品 按照 流行 度 分 成 20 份 , 然后 计算 每 一 类 物品 的 平均 在 线 天 数 。 图 5-5 展 示 了 5 个 数据 集 
中 物品 流行 度 和 物品 在 线 天 数 之 间 的 关系 。 横 坐标 是 每 一 类 物品 的 平均 流行 度 ， 纵 轴 是 
该 类 物品 的 平均 在 线 天 数 。 如 图 所 示 ， 不 同 数据 集中 的 曲线 具有 不 同 的 斜率 。 对 于 流行 
度 相 同 的 物品 ， 维 基 百 科 的 物品 在 线 天 数 很 长 ， 而 纽约 时 报 的 物品 在 线 天 数 很 得。 这 说 
明 这 两 个 网 站 具有 不 同 的 时 效 性 。 纽 约 时 报 等 新 闻 类 网 站 时 效 性 很 强 ， 每 一 条 新 闻 热 起 
来 很 快 ， 冷 下 去 也 很 快 ， 所 以 它们 的 物品 生存 周期 都 很 得 。 维 基 百 科 的 词 条 则 不 同 ， 它 
们 和 百科 全 书 的 词 条 一 样 ， 经 常会 被 用 户 查 询 到 ， 因 此 具有 比较 长 的 生存 周期 。 
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wikipedia 一 一 sourceforge 
图 5-5 ”不同 数据 集中 物品 流行 度 和 物品 平均 在 线 时 间 的 关系 曲线 
相隔 T 天 系统 物品 流行 度 向 量 的 平均 相似 度 ” 取 系统 中 相 邻 7 天 的 两 天 ， 分别 计 算 这 两 天 
的 物品 流行 度 ， 从 而 得 到 两 个 流行 度 向 量 。 然 后 ， 计 算 这 两 个 向 量 的 余弦 相似 度 ， 如 果 
相似 度 大 , 说 明 系统 的 物品 在 相隔 7 天 的 时 间 内 没有 发 生 大 的 变化 ， 从 而 说 明 系统 的 时 效 
性 不 强 ， 物 品 的 平均 在 线 时 间 较 长 。 想 法 ， 如 果 相 似 度 很 小 ,说 明 系 统 中 的 物品 在 相隔 7 
天 的 时 间 内 发 生 了 很 大 变化 ， 从 而 说 明 系 统 的 时 效 性 很 强 ， 物 品 的 平均 在 线 时 间 很 短 。 
图 5-6 展 示 了 5 个 数据 集中 相隔 7 天 物品 流行 度 向 量 的 平均 相似 度 。 横 坐标 是 7， 纵 坐标 是 
系统 中 时 刻 物 品 流行 度 向 量 和 t+7 时 刻 物 品 流行 度 向 量 的 平均 相似 度 ( 取 不 同 的 计算 相 
似 度 ， 取 平均 值 )。 图 5-6 中 的 结果 首先 说 明了 7 越 大 ， 系 统 物品 流行 度 分 布 差距 越 
大 一 一 这 一 点 是 显然 的 。 其 次 ， 可 以 看 到 ， 尽 管 所 有 的 数据 集中 相似 度 都 随 7 的 增加 而 下 
降 ， 但 下 降 速 率 却 是 不 同 的 。 在 纽约 时 报 的 数据 集中 ， 相 似 度 下 降 很 快 ， 说 明 系 统 中 物 
品 流 行 度 分 布 变化 很 快 ， 系 统 时 效 性 很 强 。 而 维基 百科 的 数据 集中 ， 相 似 度 的 下 降 却 相 
对 比较 慢 ， 说 明 系 统 中 物品 流行 度 分 布 变化 较 慢 ， 系 统 时 效 性 比较 弱 。 
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图 5-6 ”相隔 7 天 系统 物品 流行 度 向 量 的 平均 相似 度 

















5.1.4 推荐 系统 的 实时 性 


用 户 兴 趣 是 不 断 变化 的 , 其 变化 体现 在 用 户 不 断 增 加 的 新 行为 中 。 一 个 实时 的 推荐 系统 需要 5 
能 够 实时 响应 用 户 新 的 行为 ， 让 推荐 列表 不 断 变化 ， 从 而 满足 用 户 不 断 变化 的 兴趣 。 
如 果 仔 细 研 究 一 下 亚马逊 网 的 推荐 系统 ， 就 可 以 发 现 它 是 一 个 实时 的 推荐 系统 。 如 图 $-7 所 
示 , 我 首先 打开 亚马逊 网 的 推荐 系统 页 面 ,， 大 家 可 以 看 到 亚马逊 网 给 我 推荐 的 图 书 。 然后， 我 通 
过 搜索 找到 关于 MongoDB 的 一 本 书 ， 单 击 了 Liked ( 喜欢 过 ) 按钮 。 接 着 ， 我 重新 回 到 亚马逊 网 
的 推荐 系统 页 面 , 发 现 我 的 推荐 列表 变化 了 , 多 了 一 本 Mahout in Action, 单 击 fix this recommendation 
(修正 此 推荐 ), 可 以 看 到 亚马逊 网 给 我 推荐 这 本 书 的 理由 : 因为 我 刚刚 为 MongoDB: The Definitive 
Guide 单 击 了 Linked。 
这 一 切 都 发 生 在 几 十 秒 内 。 为 了 证 明 亚 马 偿 网 不 是 每 次 刷新 都 随机 展示 推荐 列表 , 我 曾经 每 
隔 十 几 秒 就 刷新 一 次 亚马逊 网 的 推荐 列表 ，, 发现 并 没有 任何 变化 。 但 一 旦 我 产生 了 新 的 行为 ， 变 
化 就 发 生 了 。 当 然 ， 并 非 我 的 任何 新 行为 都 能 导致 推荐 列表 的 变化 ， 比 如 如 果 我 仅仅 是 浏览 
MongoDB: The Definite Guide 一 书 的 网 页 ， 推 荐 列表 并 不 会 变化 ， 但 我 的 所 有 显 性 反馈 行为 都 会 
导致 推荐 列表 的 变化 。 
实现 推荐 系统 的 实时 性 除了 对 用 户 行为 的 存 取 有 实时 性 要 求 , 还 要 求 推 荐 算法 本 身 具 有 实时 
性 ， 而 推荐 算法 本 身 的 实时 性 意味 着 : 
口 实时 推荐 系统 不 能 每 天 都 给 所 有 用 户 离线 计算 推荐 结果 ， 然 后 在 线 展示 昨天 计算 出 来 的 
结果 。 所 以 ， 要 求 在 每 个 用 户 访问 推荐 系统 时 ， 都 根据 用 户 这 个 时 间 点 前 的 行为 实时 计 
算 推 荐 列表 。 
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口 推荐 算法 需要 平衡 考虑 用 户 的 近期 行为 和 长 期 行为 ， 即 要 让 推荐 列表 反应 出 用 户 近 期 行 
为 所 体现 的 兴趣 变化 ， 又 不 能 让 推荐 列表 完全 受用 户 近 期 行为 的 影响 ， 要 保证 推荐 列表 
对 用 户 兴 趣 预 测 的 延续 性 。 
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截取 自 亚马逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 5-7 ”推荐 系统 实时 性 举例 





5.1.5 ”推荐 算法 的 时 间 多 样 性 


很 多 推荐 系统 的 研究 人 员 经 常 遇 到 一 个 问题 ， 就 是 每 天 给 用 户 的 推荐 结果 都 差不多 , 没有 什 
么 变化 。 推荐 系统 每 天 推荐 结果 的 变化 程度 被 定义 为 推荐 系统 的 时 间 多 样 性 。 时 间 多 样 性 高 的 推 
荐 系统 中 用 户 会 经 常 看 到 不 同 的 推荐 结果 。 
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那么 推荐 系统 的 时 间 多 样 性 和 用 户 满意 度 之 间 是 否 存在 关系 呢 ? 时 间 多 样 性 高 是 否 就 能 提 
高 用 户 的 满意 度 ? 为 了 解答 这 些 问 题 ,英国 研究 人 员 进 行 了 一 次 实验 ”, 他们 设计 了 3 种 推荐 系统 。 

A 给 用 户 推荐 最 热门 的 10 部 电影 。 

B 从 最 热门 的 100 部 电影 中 推荐 10 部 给 用 户 ， 但 保证 了 时 间 多 样 性 ， 每 周 都 有 7 部 电影 推荐 
结果 不 在 上 周 的 推荐 列表 中 。 

C 每 次 都 从 所 有 电影 中 随机 挑选 10 部 推荐 给 用 户 。 

对 比 这 3 种 算法 可 知 ，A 算 法 每 天 给 用 户 的 推荐 结果 都 一 样 ,没有 时 间 多 样 性 ，B 算 法 保证 了 

一 定 的 时 间 多 样 性 ， 同 时 推荐 结果 也 是 比较 热门 的 电影 ，C 算 法 具有 完全 的 时 间 多 样 性 ， 因 为 它 

每 次 推荐 都 是 从 所 有 电影 中 随机 选择 的 ， 但 是 它 并 没有 考虑 电影 的 热门 程度 。 

然后 ， 研 究 人 员 进 行 了 用 户 调查 实验 。 他 们 每 次 给 用 户 展示 30 个 推荐 结果 ( 分 别 来 自 3 个 不 

同 的 算法 ) 然后 让 用 户 给 这 些 推 荐 结果 评分 。 经 过 5 周 的 实验 后 ， 研 究 人 员 统 计 了 每 一 周 不 同 算 

法 的 推荐 结果 的 平均 评分 ， 发现 了 如 下 现象 ( 具体 结果 分 析 请 参考 他 们 的 论文 )。 

口 A、B 算 法 的 平均 分 明显 高 于 C 算 法 。 这 说 明 纯粹 的 随机 推荐 虽然 具有 最 高 的 时 间 多 样 性 ， 

但 不 能 保证 推荐 的 精度 。 

口 A 算 法 的 平均 分 随时 间 逐 渐 下 降 ， 而 B 算 法 的 平均 分 随时 间 基 本 保持 不 变 。 这 说 明 A 算 法 
因为 没有 时 间 多 样 性 ， 从 而 造成 用 户 满意 度 不 断 下 降 ， 从 而 也 说 明了 保证 时 间 多 样 性 的 
重要 性 。 

在 证 明了 时 间 多 样 性 对 推荐 系统 的 正面 意义 之 后 , 下 面 的 问题 就 是 如 何在 不 损失 精度 的 情况 

下 提高 推荐 结果 的 时 间 多 样 性 。 

提高 推荐 结果 的 时 间 多 样 性 需要 分 两 步 解 决 : 首先 ,需要 保证 推荐 系统 能 够 在 用 户 有 了 新 的 

行为 后 及 时 调整 推荐 结果 , 使 推荐 结果 满足 用 户 最 近 的 兴趣 ; 其 次 , 需要 保证 推荐 系统 在 用 户 没 

有 新 的 行为 时 也 能 够 经 常 变 化 一 下 结果 ， 具 有 一 定 的 时 间 多 样 性 。 

对 于 第 一 步 ， 又 可 以 分 成 两 种 情况 进行 分 析 。 第 一 是 从 推荐 系统 的 实时 性 角度 分 析 。 有 些 推 

荐 系统 会 每 天 离线 生成 针对 所 有 用 户 的 推荐 结果 , 然后 在 线 直 接 将 这 些 结果 展示 给 用 户 。 这 种 类 

型 的 系统 显然 无 法 做 到 在 用 户 有 了 新 行为 后 及 时 调整 推荐 结果 。 第 二 ， 即 使 是 实时 推荐 系统 ,由 

于 使 用 的 算法 不 同 ， 也 具有 不 同 的 时 间 多 样 性 。 对 于 不 同 算法 的 时 间 多 样 性 ，Neal Lathia 博 士 在 

博士 论文 中 进行 了 深入 探讨 ”， 这 里 就 不 再 详 述 了 。 

那么 , 如 果 用 户 没有 行为 , 如 何 保证 给 用 户 的 推荐 结果 具有 一 定 的 时 间 多 样 性 呢 ? 一 般 的 思 

路 有 以 下 几 种 。 

口 在 生成 推荐 结果 时 加 入 一 定 的 随机 性 。 比 如 从 推荐 列表 前 20 个 结果 中 随机 挑选 10 个 结果 

展示 给 用 户 ， 或 者 按照 推荐 物品 的 权重 采样 10 个 结果 展示 给 用 户 。 

口 记录 用 户 每 天 看 到 的 推荐 结果 ， 然 后 在 每 天 给 用 户 进 行 推荐 时 ， 对 他 前 几 天 看 到 过 很 多 



























































































































































人 参见 Neal Lathia 、Stephen Hailes 、Licia Capra 和 Xavier Amatriain 的 “Temporal Diversity in Recommender Systems”( SIGIR 
2010 )。 

@) 参见 Neal Lathia 的 “Evaluating Collaborative Filtering Over Time”， 论 文 链 接 为 http:/www.cs.ucl.ac.uk/staff/n. 
lathia/thesis.html。 
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次 的 推荐 结果 进行 适当 地 降 权 。 
口 每 天 给 用 户 使 用 不 同 的 推荐 算法 。 可 以 设计 很 多 推荐 算法 ， 比 如 协同 过 滤 算 法 、 内 容 过 
滤 算法 等 ， 然 后 在 每 天 用 户 访问 推荐 系统 时 随机 挑选 一 种 算法 给 他 进行 推荐 。 
当然 ,时 间 多 样 性 也 不 是 绝对 的 。 推 荐 系统 需要 首先 保证 推荐 的 精度 , 在 此 基础 上 适当 地 考 
虑 时 间 多 样 性 。 在 实际 应 用 中 需要 通过 多 次 的 实验 才能 知道 什么 程度 的 时 间 多 样 性 对 系统 是 最 
好 的 。 















































5.1.6 ”时 间 上 下 文 推荐 算法 


上 一 节 介 绍 了 很 多 时 间 效 应 , 本 节 主 要 讨论 如 何 将 这 些 时 间 效 应 应 用 到 系统 中 。 建 模 时 间 信 
息 有 很 多 方法 ， 本 节 将 分 别 介 绍 不 同 的 方法 ， 并 通过 实验 对 比 这 些 方 法 。 

1. 最 近 最 热门 

在 没有 时 间 信 息 的 数据 集中 , 我 们 可 以 给 用 户 推 荐 历史 上 最 热门 的 物品 。 那么 在 获得 用 户 行 
为 的 时 间 信 息 后 , 最 简单 的 非 个 性 化 推荐 算法 就 是 给 用 户 推 荐 最 近 最 热门 的 物品 了 。 给 定时 间 7， 
物品 最 近 的 流行 度 n,(7) 可 以 定义 为 : 


n(T)= 





























1 
(1wi,t)eTrain,t<T 1 十 C( 了 1) 





这 里 ，a 是 时 间 豪 减 参数 。 
下 面 的 Python 代 码 实 现 了 上 面 的 计算 公式 : 
def RecentPopularity (records, alpha, T): 
ret = dict() 
for user,item,tm in records: 
于 下 七 坝 法 写 浊 3 
continue 


addToDict (ret, item, 1 / (1.0 + alpha * (T - tm))) 
return ret 


2. 时 间 上 下 文 相关 的 ltemCF 算 法 

基于 物品 ( item-based ) 的 个 性 化 推荐 算法 是 
讨论 可 以 看 到 ， 该 算法 由 两 个 核心 部 分 构成 : 
口 利用 用 户 行为 离线 计算 物品 之 间 的 相似 度 ; 
口 根据 用 户 的 历史 行为 和 物品 相似 度 矩 了 泗 ， 给 用 户 做 在 线 个 性 化 推荐 。 
时 间 信 息 在 上 面 两 个 核心 部 分 中 都 有 重要 的 应 用 ， 这 体现 在 两 种 时 间 效 应 上 。 
口 物品 相似 度 ”用户 在 相隔 很 短 的 时 间 内 喜欢 的 物品 具有 更 高 相似 度 。 以 电影 推荐 为 例 ， 
用 户 今天 看 的 电影 和 用 户 昨天 看 的 电影 其 相似 度 在 统计 意义 上 应 该 大 于 用 户 今天 看 的 电 
影 和 用 户 一 年 前 看 的 电影 的 相似 度 。 
在 线 推荐 ”用户 近 期 行为 相 比 用 户 很 久之 前 的 行为 ， 更 能 体现 用 户 现在 的 兴趣 。 因 此 在 
预测 用 户 现在 的 兴趣 时 ， 应 该 加 重用 户 近 期 行为 的 权重 ， 优 先 给 用 户 推荐 那些 和 他 近期 
喜欢 的 物品 相似 的 物品 。 























区 用 推荐 系统 中 应 用 最 广泛 的 ， 从 前 面 儿童 的 








口 
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首先 回顾 一 下 前 面 提 到 的 基于 物品 的 协同 过 滤 算 法 ， 它 通过 如 下 公式 计算 物品 的 相似 度 : 
vn 
INO NGO) 
而 在 给 用 户 u 做 推荐 时 ， 用 户 u 对 物品 的 兴趣 p(w,i) 通 过 如 下 公式 计算 : 
pl(u,i) = > sim(i, )) 


A 
在 得 到 时 间 信 息 ( 用户 对 物品 产生 行为 的 时 间 ) 后 , 我 们 可 以 通过 如 下 公式 改进 相似 度 计算 : 
onl ) 
INONNOA 
注意 ， 上 面 的 公式 在 分 子 中 引入 了 和 时 间 有 关 的 衰减 项 (| 
产生 行为 的 时 间 。 /函数 的 含义 是 , 用 户 对 物品 和 和 物品 j 产 生 行 为 的 时 间 越 远 , 则 /( 
我 们 可 以 找到 很 多 数学 衰减 函数 ， 本 节 使 用 如 下 衰减 函数 : 


1 
-a 
wy 


1 十 oak, 


sim(i, ) = 





1 


ui wu 











sim(i, )) = 





tt 








,|) ， 其 中 4 是 用 户 u 对 物品 i 
ti EE Lj |) 越 小 。 




















0 是 时 间 衰 减 参数 , 它 的 取 值 在 不 同系 统 中 不 同 。 如 果 一 个 系统 用 户 兴 趣 变 化 很 快 , 就 应 该 
取 比 较 大 的 w ， 反 之 需要 取 比 较 小 的 w 。 
改进 后 ItemCF 的 相似 度 可 以 通过 如 下 代码 实现 : 


def ItemSimilarity (train, alpha): 
#calculate co-rated users between items 
CG iat() 
N 志 Qyet(y 
for u, items in train.items(): 
for i,tui in items.items(): 
N[i] += 1 
for j,tuj in items.items(): 
时 下 时: 二 三 本 过 
Continue 
C[i][j] += 1 / (1 + alpha * abs(tui - tuj)) 


#calculate finial similarity matrix W 
W = dict() 
for i,related items in C.items() : 
for j, cij in related_items.items(): 
WIu] [v] = cij / math.sqrt (N[i] * N[j]) 
return W 


除了 考虑 时 间 信 息 对 相关 表 的 影响 ,我 们 也 应 该 考虑 时 间 信 息 对 预测 公式 的 影响 ,一 般 来 说 ， 
用 户 现在 的 行为 应 该 和 用 户 最 近 的 行为 关系 更 大 。 因 此 ， Se 过 如 下 方式 修正 预测 公式 
pl(u,i) = > sim(i, )) 


jeN(wNS(i,K) 1 My 
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其 中 ，t 是 当前 时 间 。 上 面 的 公式 表明 ， 越 车 近 4 ， 和 物品 j 相 似 的 物品 就 会 在 用 户 u 的 推 
荐 列表 中 获得 越 高 的 排名 。p 是 时 间 衰 减 参 数 , 需要 根据 不 同 的 数据 集 选 择 合适 的 值 。 上 面 的 推 
荐 算法 可 以 通过 如 下 代码 实现 。 

def Recommendation(train, user_id, W, K, t0): 

rank = .diet() 
ru = train[luser_id] 
fOr .pi in TU Ttems(): 
for j, wj in sorted(W[i].items(), \ 
key=itemgetter(1), reverse=True) [0:K] : 
if j,tuj in ru.items(): 
continue 

rank[j] += pi * wj / (1 + alpha * (to - tuj)) 

return rank 


3. 时 间 上 下 文 相关 的 UserCF 算 法 

和 ItemCF 算 法 一 样 ，UserCF 算 法 同样 可 以 利用 时 间 信 息 提 高 预测 的 准确 率 。 首先 , 回顾 一 下 
前 面 关 于 UserCF 算 法 的 基本 思想 : 给 用 户 推 荐 和 他 兴趣 相似 的 其 他 用 户 喜 欢 的 物品 。 从 这 个 基本 
思想 出 发 ， 我 们 可 以 在 以 下 两 个 方面 利用 时 间 信息 改进 UserCF 算 法 。 

口 用 户 兴趣 相似 度 ”在 第 3 章 的 定义 中 我 们 知道 ， 两 个 用 户 兴 趣 相 似 是 因 为 他 们 喜欢 相同 的 
物品 ， 或 者 对 相同 的 物品 产生 过 行为 。 但 是 ， 如 果 两 个 用 户 同 时 喜欢 相同 的 物品 ， 那 么 
这 两 个 用 户 应 该 有 更 大 的 兴趣 相似 度 。 比 如 用 户 A 在 2006 年 对 C++ 感 兴趣 ,在 2007 年 对 Java 
感 兴 趣 ， 用 户 B 在 2006 年 对 Java 感 兴趣 ，2007 年 对 C++ 感 兴趣 ， 而 用 户 C 和 A 一 样 ， 在 2006 
年 对 C++ 感 兴趣 ， 在 2007 年 对 Java 感 兴趣 。 那 么 ， 根 据 第 3 章 的 定义 ， 用 户 A 和 用 户 B 的 兴 
趣 相 似 度 等 于 用 户 A 和 用 户 C 的 兴趣 相似 度 。 但 显然 , 在 实际 世界 , 我 们 会 认为 用 户 A 和 C 
的 兴趣 相似 度 要 大 于 用 户 A 和 B。 
相似 兴趣 用 户 的 最 近 行 为 ”在 找到 和 当前 用 户 u 兴 趣 相似 的 一 组 用 户 后 ， 这 组 用 户 最 近 的 
兴趣 显然 相 比 这 组 用 户 很 久之 前 的 兴趣 更 加 接近 用 户 u 今 天 的 兴趣 。 也 就 是 说 ， 我 们 应 该 
给 用 户 推 荐 和 他 兴趣 相似 的 用 户 最 近 喜 欢 的 物品 。 

在 新 闻 推 荐 系统 中 ， 时 间 信 息 在 UserCF 中 的 作用 非常 明显 。 假 设 我 们 今天 要 给 一 个 NBA 篮 
球迷 推荐 新 闻 。 首 先 , 我 们 需要 找到 一 批 和 他 一 样 的 NBA 迷 , 然后 找到 这 批 人 在 当前 时 刻 最 近 阅 
读 最 多 的 新 闻 推 荐 给 当前 用 户 , 而 不 是 把 这 批 人 去 年 阅读 的 新 闻 推荐 给 当前 用 户 , 因为 他 们 去 年 
阅读 最 多 的 新 闻 在 现在 看 显然 过 期 了 。 

首先 回顾 一 下 UserCF 的 推荐 公式 。UserCF 通 过 如 下 公式 计算 用 户 u 和 用 户 v 的 兴趣 相似 度 : 

|vcoOmNo)| 


” AINaJIUINO 
其 中 MO) 是 用 户 u 喜 欢 的 物品 集合 ，NOy) 是 用 户 v 喜 欢 的 物品 集合 。 可 以 利用 如 下 方式 考虑 时 
间 信息 : 



































口 
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> 1l+@& t, 一 上 








vi 





Uv 


INGAIUING)) 
上 面 公式 的 分 子 对 于 用 户 u 和 用 户 v 共 同 喜 欢 的 物品 增加 了 一 个 时 间 豪 减 因子 。 用 户 u 和 用 户 
v 对 物品 产生 行为 的 时 间 越 远 ， 那 么 这 两 个 用 户 的 兴趣 相似 度 就 会 越 小 。 


def UserSimilarity (train): 
# build inverse table for item users 
item users = dict() 
for u, items in train.items(): 
for i,tui in items.items(): 
if i not in item users: 
item users[i] = dict() 
item users[i][u] = tui 








#calculate co-rated items between users 
CG "drett() 
N 三 Et 
for i, users in item users.items(): 
for u,tui in users.items(): 
N[u] += 1 
for v,tvi in users.items(): 
i 
continue 
CIu]l[v] += 1 / (1 + alpha * abs(tui - tvi)) 


#calculate finial similarity matrix W 
W = dict() 
for u, related users in C.items(): 
for v, cuv in related users.items(): 
W[u] [Vv] = cuv / math.sgqrt (N[u] * NI[v]) 
return W 


在 得 到 用 户 相似 度 后 ，UserCF 通 过 如 下 公式 预测 用 户 对 物品 的 兴 
plu,i) = > Wyi 


veES(u,K) 
其 中 ，S(w, 避 包含 了 和 用 户 u 兴 趣 最 接近 的 K 个 用 户 。 如 果 用 户 v 对 物品 i 产生 过 行为 ， 那 么 
r=1, 否则 x =0。 
如 果 考 虑 和 用 户 u 兴 趣 相 似 用 户 的 最 近 兴趣 ， 我 们 可 以 设计 如 下 公式 : 
psd)= 5 wr 


veS(u,K) 1+Q(to —L;) 





def Recommend (user, T, train, W): 
rank = QLet() 
interactedq_items = train[user] 
for Vv, wuv in sorted(W[u] .items, key=itemgetter(1), 
reverse=True) [0:K] : 
for i, tvi in train[v] .items: 
if i in interacted_items: 
#we should filter items user interacted before 
continue 
rank[i] += wuv / (1 + alpha * (T - tvi)) 
return rank 
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5.1.7 时间 段 图 模型 


基于 图 的 模型 在 前 面 几 章 中 得 到 了 广泛 应 用 。 在 时 变 个 性 化 推荐 系统 中 , 它 依然 得 到 了 广泛 
应 用 。 我 们 在 KDD 会 议 上 曾经 提出 过 一 个 时 间 段 图 模型 ”， 试 图 解决 如 何 将 时 间 信 息 建 模 到 图 模 
型 中 的 方法 ， 最 终 取得 了 不 错 的 效果 。 

时 间 段 图 模型 G(U,S,,7,S,,E,w,o) 也 是 一 个 二 分 图 。U 是 用 户 节点 集合 ，S, 是 用 户 时 间 段 
节点 集合 。 一 个 用 户 时 间 段 节点 ve 5 会 和 用 户 u 在 时 刻 t 喜 欢 的 物品 通过 边 相 连 。/ 是 物品 节点 
集合 ，5, 是 物品 时 间 段 节点 集合 。 一 个 物品 时 间 段 节点 ve 5 会 和 所 有 在 时 刻 厨 欢 物 品 的 用 户 
通过 边 相 连 。 有 是 边 集合 , 它 包 含 了 3 种 边 : (1) 如 果 用 户 u 对 物品 请 行为 , 那么 存在 边 e(v,,v)e EE; 
(2) 如 果 用 户 u 在 {时刻 对 物品 衣 行 为 , 那么 就 存在 两 条 边 e(v,v,),e(V,,v,)e EE。w(e) 定 义 了 边 的 权 
重 ，o(e) 定 义 了 顶点 的 权重 。 

图 5-8 是 一 个 简单 的 时 间 段 图 模型 示例 。 在 这 个 例子 中 ， 用 户 A 在 时 刻 2 对 物品 b 产 生 了 行为 。 


















































因此 ， 时 间 段 图 模型 会 首先 创建 4 个 顶点 ， 即 用 户 顶 点 A、 用 户 时 间 段 顶点 A:2、 物 品 顶 点 b、 物 
唱 时 间 段 顶点 :2。 然 后 ， 图 中 会 增加 3 条 边 ， 即 (4,5)、(4:2, 5)、(4,5:2)。 这 里 不 再 增加 (4:2, 5:2) 




















这 条 边 , 一 方面 是 因为 增加 这 条 边 后 不 会 对 结果 有 所 改进 , 男 一 方面 则 是 因为 增加 一 条 边 会 增加 
图 的 空间 复杂 度 和 图 上 算法 的 时 间 复 杂 度 。 

















图 5-8 ”时 间 段 图 模型 示例 


定义 完 图 的 结构 后 ， 最 简单 的 想法 是 可 以 利用 前 面 提 到 的 PersonalRank 算 法 给 用 户 进行 个 性 
化 推荐 。 但 是 因为 这 个 算法 需要 在 全 图 上 进行 迭代 计算 , 所 以 时 间 复 杂 度 比较 高 。 因 此 我 们 提出 















































了 一 种 称 为 路 径 融 合算 法 的 方法 ， 通 过 该 算法 来 度量 图 上 两 个 顶点 的 相关 性 。 
一 般 来 说 ， 图 上 两 个 相关 性 比较 高 的 项 点 一 般 具 有 如 下 特征 : 
口 两 个 顶点 之 间 有 很 多 路 径 相 连 ; 
口 两 个 顶点 之 间 的 路 径 比 较 短 ; 











人 参见 Liang Xiang 、Quan Yuan 、Shiwan Zhao 、Li Chen 、Xiatian Zhang 、Qing Yang 和 Jimeng Sun 的 “Temporal 
recommendation on graphs via long- and short-term preference fusion” ( ACM 2010 Article, 2010 )。 
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口 两 个 顶点 之 间 的 路 径 不 经 过 出 度 比较 大 的 顶点 。 
从 这 3 条 原则 出 发 ， 路 径 融 合算 法 首先 提取 出 两 个 顶点 之 间 长 度 小 于 一 个 阔 值 的 所 有 路 径 ， 


然后 根据 每 条 路 径 经 过 的 顶点 给 每 条 路 径 赋予 一 定 的 权重 , 最 后 将 两 个 顶点 之 间 所 有 路 径 的 权重 
之 和 作为 两 个 顶点 的 相关 度 。 

假设 P={v,v,,…,v,} 是 连接 顶点 v， 和 vw 的 一 条 路 径 , 这 条 路 径 的 权重 T(P) 取决 于 这 条 路 径 
经 过 的 所 有 顶点 和 边 : 





rp)=o0 Te wy 


i=1 |out(w) 








这 里 out(y) 是 顶点 v 指 向 的 顶点 集合 ,|out(y)| 是 顶点 v 的 出 度 ，o(v,)e (0,1] 定义 了 顶点 的 权重 ， 
wvV,vVin)e (0,1] 定 义 了 边 elQv,,v,,) 的 权重 。 上 面 的 定义 符合 上 面 3 条 原则 的 后 两 条 。 首 先 ， 因 为 


CO we (0.D ， 所 以 路 径 越 长 越 大 ，T(P) 就 越 小 。 同 时 ， 如 果 路 径 经 过 了 出 度 大 的 顶 





lout@y,)| 
点 v'， 那 么 因为 lout(vi 和 | 比较 大 ， 所 以 T(P) 也 会 比较 小 。 
在 定义 了 一 条 路 径 的 权重 后 , 就 可 以 定义 顶点 之 间 的 相关 度 。 对 于 顶点 v 和 v', 令 pv,v,K) 为 
这 两 个 顶点 间距 离 小 于 K 的 所 有 路 径 ， 那 么 这 两 个 顶点 之 间 的 相关 度 可 以 定义 为 : 
dw,v)= > TP) 
PeP(v,v',K) 
对 于 时 间 段 图 模型 ， 所 有 边 的 权重 都 定义 为 1， 而 顶点 的 权重 o(v) 定义 如 下 : 
1-a(veU) 
Si (ve Ss,) 
1-pOe7) 
BOeS,) 
这 里 ，Q, Be [0,1] 是 两 个 参数 ， 控 制 了 不 同 顶 点 的 权重 。 


路 径 融 合算 法 可 以 基于 图 上 的 广度 优先 搜索 算法 实现 , 下面 的 Python 代码 简单 实现 了 路 径 融 
合算 法 。 


def PathFusion(user, time,G,alpha) 
Q= [] 
V = Set() 
depth = Qict 1() 
rank = Qict() 
depth['u:' + user] = 
depth['ut:' + user + 
rank ['u:' + user] = 
rank ['ut:' + user + '_' + time] = 1 - alpha 
Q.append('u:' + user) 
Q.append('ut:' + user + '_' + time) 
while len(Q) > 0: 
V = Q.pop() 
TF 允 





continue 
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if depth[v] > 3: 
continue 
for v2,w in G[v]l.items() : 
了 下 有 Not in Vs 
depth[v2] = Qepth[v]j + 1 
Q.append (v2) 
rank[v2] = rank[v] * w 
return rank 


5.1.8 ”离线 实验 


为 了 证 明 时 间 上 下 文 信息 对 推荐 系统 至 关 重 要 , 本 节 将 利用 离线 实验 对 比 使 用 时 间 信 息 后 不 
同 推荐 算法 的 离线 性 能 。 

1. 实验 设置 

在 得 到 由 ( 用户、 物品 、 时 间 ) 三 元 组 组 成 的 数据 集 后 ,我 们 可 以 通过 如 下 方式 生成 训练 集 
和 测试 集 。 对 每 一 个 用 户 , 将 物品 按照 该 用 户 对 物品 的 行为 时 间 从 早 到 晚 排 序 , 然后 将 用 户 最 后 
一 个 产生 行为 的 物品 作为 测试 集 , 并 将 这 之 前 的 用 户 对 物品 的 行为 记录 作为 训练 集 。 推 荐 算法 将 
根据 训练 集 学 习 用 户 兴趣 模型 ， 给 每 个 用 户 推 荐 N 个 物品 ， 并 且 利 用 准确 率 和 召回 率 评测 推荐 算 
法 的 精度 。 本 节 将 选取 不 同 的 N10,20,…,100) 进 行 10 次 实验 , 并 画 出 最 终 的 准确 率 和 召回 率 曲线 ， 
通过 该 曲线 来 比较 不 同 算法 的 性 能 。 







































































DR NT 








le 
SR, NNTE)| 
Precision@N =— 5 [Ru,N) 





























这 里 ，R(u, 入 ) 是 推荐 算法 给 用 户 u 提 供 的 长 度 为 N 的 推荐 列表 ，7T(w) 是 测试 集中 用 户 喜 欢 的 物 
品 集合 。 
本 节 的 离线 实验 将 同时 对 比如 下 算法 ， 将 它们 的 召回 率 和 准确 率 曲线 画 在 一 张 圆 上 。 
口 Pop 给 用 户 推 荐 当天 最 热门 的 物品 。 
口 TltemCF 融合 时 间 信 息 的 ItemCF 算 法 。 
口 TUserCF 融合 时 间 信 息 的 UserCF 算 法 。 
D ltemCF 不 考虑 时 间 信 息 的 ItemCF 算 法 。 
口 UserCF 不 考虑 时 间 信 息 的 UserCF 算 法 。 
口 SGM 时间 段 图 模型 。 
口 USGM 物品 时 间 节 点 权重 为 0 的 时 间 段 图 模型 。 
口 ISGM 用 户 时 间 节 点 权重 为 0 的 时 间 段 图 模型 。 
这 里 ， 我 们 没有 对 比 不 同 参 数 下 各 个 算法 的 性 能 ， 最 终 的 实验 结果 是 在 最 优 参数 下 获得 
的 。 图 5-9、 图 5-10、 图 5-11、 图 5-12、 图 5-13 展 示 了 5 个 不 同 数据 集 上 各 个 算法 的 召回 率 和 准 
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确 率 曲 线 。 
BlogSpot 
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Recall 
一 一 [temKNN 一 四 一 TItemKNN = User KNN 一 一 TUserKNN 
一 /一 Pop 一 划一 SGM 一 一 USGM ”一 一 ISGM 
图 5-9 ”BlogSpot 数 据 集 的 召回 率 和 准确 率 曲线 
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Recall 


一 一 [temKNN == TItemKNN ~ User KNN 一 一 TUserKNN 
= Pop 二 SGM 一 一 USGM 一 ISGM 


























图 $-10 NYTimes 数 据 集 的 召回 率 和 准确 率 曲线 
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图 5-11 ”SourceForge 数 据 集 的 召回 率 和 准确 率 曲线 
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图 5-12 Wikipedia 数据 集 的 召回 率 和 准确 率 曲 线 
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一 Pop 一 和 一 SGM 本 USGM ”一 一 ISGM 











图 $-13 ”YouTube 数据 集 的 召回 率 和 准确 率 曲线 


仔细 研究 不 同 数据 集 的 召回 率 和 准确 率 曲线 可 以 发 现 ， 这 些 曲线 的 形状 将 数据 集 分 成 了 两 
类 。 一 类 是 BlogSpot、YouTube 、NYTimes， 男 一 类 是 Wikipedia 和 SourceForge。 在 第 一 类 数据 集 
中 ， 有 4 个 算法 (SGM、ISGM、TUserCF、Pop ) 明显 好 于 另外 4 个 算法 ， 而 在 第 二 类 数据 集中 ， 
不 同 算法 的 召回 率 和 准确 率 曲 线 交 织 在 一 起 ， 并 不 能 明显 分 开 。 而 且 , 在 第 一 类 数据 集中 ， 即 使 
是 非 个 性 化 推荐 算法 Pop 也 优 于 很 多 个 性 化 推荐 算法 (TItemCF 、USGM )。 这 主要 是 因为 第 一 类 
数据 集 的 时 效 性 很 强 , 因此 用 户 兴 趣 的 个 性 化 不 是 特别 明显 ,每 天 最 热门 的 物品 已 经 吸引 了 绝 大 
多 数 用 户 的 眼球 ， 而 长 尾 中 的 物品 很 少 得 到 用 户 的 关注 。 


5.2 地 点 上 下 文 信息 


除了 时 间 , 地 点 作为 一 种 重要 的 空间 特征 , 也 是 一 种 重要 的 上 下 文 信息 。 不 同 地 区 的 用 户 兴 
有 所 不 同 , 用 户 到 了 不 同 的 地 方 ， 兴趣 也 会 有 所 不 同 。 在 中 关 村 和 逛街 逛 累 了 ,而 望 寻找 美食 时 , 你 
可 能 会 考虑 几 个 因素 , 包括 距离 、 价位、 口味 和 口碑 , 而 在 这 些 因素 里 , 最 重要 的 因素 可 能 是 距离 。 
因此 ， 很 多 基于 位 置 的 服务 (LBS ) 软件 都 提供 了 推荐 附近 和 餐馆 和 商店 的 功能 ( 如 图 5-14 所 示 )。 

谷歌 在 2010 年 推出 了 一 个 叫做 Hotpot 的 服务 ， 该 服务 让 用 户 对 自己 去 过 的 地 点 评分 ， 然 后 
通过 用 户 评 分 给 用 户 推荐 地 点 ( 如 图 5-15 所 示 )。Hotpot 利 用 了 用 户 在 谷歌 地 图 上 标注 和 评论 的 5 
亿 个 不 同 的 地 点 ”， 目 的 是 帮助 用 户 更 方便 地 找到 附近 可 能 令 他 们 感 兴趣 的 地 方 ， 这 些 地 方 包括 
和 餐馆、 酒店 、 啤 啡 馆 和 旅游 景点 等 。 












































QD Hotpot 网 址 为 http://places.google.com/rate。 
@ 参见 读 写 网 上 的 文章 “Google Launches Hotpot, A Recommendation Engine for Places”。 
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ull 中 国 移动 会 :26 
街 旁 过 
[Etissoo 米 BO) ss Bg x: BO| #i 附近 好 友 ”附近 攻略 
水 木 锦 堂 铁 板 烧 自助 餐厅 国 
回回 回回 加 人 均 :¥143 和 EE 
自助 餐 310m 人 周 有 41 人 去 过 ) 
全 聚 德 烤鸭 店 (清华 园 店 ) 本 | 尖 桥 咖啡 ye dae oar Pn 
9999 人 均 :*125 i 道口 华 清 嘉 园 12-8( 近 
烤鸭 250m 
750 m 
醉 爱 时 尚 餐 厅 [Ea 33 Propaganda 
回回 回回 加 人 均 :¥105 上 京 海淀 区 五 道口 华 清 嘉 园 东 门 北 全 、 
浙江 菜 450m 周 有 25 人 去 过 ) 》 
750 m 
面 香 八方 (五 道口 店 ) 加 Sh leadala 
加 四 加 回回 人 均 :¥23 上 京 海淀 区 成 府 路 28 号 ( 近 五 道口 电影 院 。 》 
粉 面馆 330m 




















截取 自 大 众 点 评 和 街 劳 网 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 $-14 左 图 是 大 众 点 评 提供 的 附近 商户 推荐 ， 右 图 是 街 旁 网 提供 的 探索 功能 界面 















































国 = [ol110] wxs [0To10] me 
搜索 并 找到 更 多 地 点 进行 评分 
会: 给 附近 的 管 富 、 遍 语 和 un 党 评分 。 gE 
餐馆 北京 搜索 
袖 保存 以 备 所 用 x 不 感 兴起 上 立 保存 以 备 后 用 x 不 感 兴 起 RE X 不 感 兴 珊 | 穴 保存 以 备 后 用 x 不 感 兴起 必 。 交 保存 以 备 后 用 X 不 感 兴 起 
随时 随地 有 推荐 首 孝 博物 信 马克 百 旭 下 内 启 总 法 源 去 意 饭 
Se 





北京 市 北京 市 未 文 区 未 文 门 西 大 北京 市 





平均 评分 记 雪 记 记 友 20 平均 评分 直击 二 友 2 平均 评分 : 丙 丰 二 页 太 8 平均 评分 ， 太 直 看 衣 丰 4 平均 评分 : 








亦 保存 以 备 后 用 X 不 感 兴 起 亦 保 邦 以 备 后 用 X 不 同 兴 策 | 祝 保存 以 备 后 用 X 不 感 兴起 裕 和 有 XX 不 感 兴 起 


窗 保 站 以 备 后 用 X 不 区 兴趣 帘 保存 以 备 后 用 X 不 感 兴 起 


a 


型 明 庄 室 馆 
a i 





北京 市 东城 区 南河 沿 大 衔 1 北京 市 北京 市 北京 市 


北京 市 索 文 区 前 门 大 衔 1 号 


平均 评分 : 去 1 平均 评分 : 克 记 记 友 六 了 平均 评分 : 平均 评分 : 平均 评分 ， 二 二 姑 去 5 平均 评分 : 






































截取 自 谷 歌 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 5-15 ”Hotpot 地 点 推荐 界面 


西班牙 电信 的 研究 人 员 曾 经 设计 过 一 个 基于 位 置 的 电影 推荐 系统 , 并 且 提 供 了 详细 的 技术 报 
告 ?。 该 报告 详细 地 介绍 了 如 何在 iPhone 上 开发 一 个 推荐 系统 ， 如 何在 电影 推荐 中 融入 用 户 的 位 
置信 息 ， 感 兴趣 的 读者 可 以 仔细 阅读 他 们 的 报告 





























人 参见 “Geolocated Recommendations”， 地 址 为 http://xavier.amatriain.net/pubs/GeolocatedRecommendations.pdf。 
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基于 位 置 的 推荐 算法 
明尼苏达 大 学 的 研究 人 员 提 出 过 一 个 称 为 LARS (Location Aware Recommender System, 位 置 
感知 推荐 系统 ) 的 和 用 户 地 点 相关 的 推荐 系统 。 该 系统 首先 将 物品 分 成 两 类 , 一 类 是 有 空间 属性 
的 ， 比 如 和 餐馆、 商店 、 旅 游 景点 等 ， 另 一 类 是 无 空间 属性 的 物品 ， 比 如 图 书 和 电影 等 。 同 时 ， 它 
将 用 户 也 分 成 两 类 ， 一 类 是 有 空间 属性 的 ， 比 如 给 出 了 用 户 现在 的 地 址 ( 国家 、 城 市 、 邮 编 等 )， 
另 一 类 用 户 并 没有 相关 的 空间 属性 信息 。 它 使 用 的 数据 集 有 3 种 不 同 的 形式 。 
口 〈 用 户 ， 用 户 位 置 ， 物 品 , 评分 )， 每 一 条 记录 代表 了 某 一 个 地 点 的 用 户 对 物品 的 评分 。 它 
们 使 用 的 是 MovieLens 数 据 集 。 该 数据 集 给 出 了 用 户 的 邮编 , 从 而 可 以 知道 用 户 的 大 致 地 址 。 
口 〈 用 户 , 物品 , 物品 位 置 , 评分 ), 每 一 条 记录 代表 了 用 户 对 某 个 地 方 的 物品 的 评分 。LARS 
使 用 了 FourSquare 的 数据 集 ， 该 数据 集 包 含 用 户 对 不 同 地 方 的 餐馆 、 景 点 、 商 店 的 评分 。 
口 〈 用 户 ， 用 户 位 置 ， 物 品 ， 物 品位 置 ， 评 分 )， 每 一 条 记录 代表 了 某 个 位 置 的 用 户 对 某 个 
位 置 的 物品 的 评分 。 
LARS 通 过 研究 前 两 种 数据 集 ， 发 现 了 用 户 兴趣 和 地 点 相关 的 两 种 特征 。 
口 兴趣 本 地 化 ”不 同 地 方 的 用 户 兴趣 存在 着 很 大 的 差别 。 不 同 国家 和 地 区 用 户 的 兴趣 存在 
着 一 定 的 差异 性 。LARS 一 文通 过 MovieLens 数 据 集 上 的 用 户 邮 编 数 据 统计 发 现 ， 佛 罗 里 
达州 的 用 户 喜欢 的 电影 和 威斯康星 州 的 用 户 喜 欢 的 电影 类 型 存在 很 大 差别 。 关 于 这 一 点 ， 
纽约 时 报 曾经 发 表 过 一 篇 文章 ， 它 给 出 了 每 个 不 同 地 区 的 用 户 使 用 Netflix 的 情况 ”。 在 那 
篇 文章 中 ， 它 给 出 了 不 同 电影 在 不 同 地 区 的 DVD 租赁 情况 。 我 们 通过 研究 第 2 章 提 到 的 
Lastfm 数 据 集 ， 也 可 以 得 到 不 同 国家 用 户 对 歌手 兴趣 的 差异 ( 如 表 5-2 所 示 )。 
口 活动 本 地 化 ”一 个 用 户 往 往 在 附近 的 地 区 活动 。 通 过 分 析 Foursqure 的 数据 ， 人 研究 人 员 发 
现 45% 的 用 户 其 活动 范围 半径 不 超过 10 英 里 ?， 而 75% 的 用 户 活 动 半径 不 超过 50 英 里 。 
此 ， 在 基于 位 置 的 推荐 中 我 们 需要 考虑 推荐 地 点 和 用 户 当 前 地 点 的 距离 ， 不 能 给 用 户 推 





















































































































































































































































荐 太 远 的 地 方 。 
表 5-2 美国、 英国 、 德 国 用 户 兴趣 度 最 高 的 歌手 
德 国 美 国 英 于 
Die Arzte (德国 柏林 著名 的 摇滚 乐队 ) ” girl talk (美国 音乐 人 ) Biffy Clyro (苏格兰 摇滚 乐队 ) 
Clueso (德国 歌手 ) They Might Be Giants (成 立 于 1982 年 的 美 ”Feeder (威尔士 的 灰 代 摇滚 乐 
国 奉 代 摇 滚 乐 队 ) 队 ) 
Peter Fox (德国 柏林 的 Hip hop 音 乐 人 ) ”Guster (美国 波士顿 的 替代 摇滚 乐队 ) Idlewild (苏格兰 摇滚 乐队 ) 
Deichkind (德国 汉堡 的 乐队 ) Saves the Day (美国 普林斯顿 的 摇滚 乐队 ) ” Elbow (英格兰 摇滚 乐队 ) 
K.LZ. (德国 柏林 的 hip hop 乐 队 ) Spoon (美国 奥斯汀 的 摇 深 乐队 ) Girls Aloud (英格兰 和 爱尔兰 的 
流行 女子 乐团 ) 














四 参见 “A Peek Into Netflix Queues”， 地 址 为 http://www.nytimes.com/interactive/2010/01/10/nyregion/20100110- 
netflix-map.html。 
@ 1 英里 ~1.609 344 千 米 。 一 一 编者 注 
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对 于 第 一 种 数据 集 ，LARS 的 基本 思想 是 将 数据 集 根据 用 户 的 位 置 划分 成 很 多 子 集 。 因 为 位 

置信 息 是 一 个 树 状 结构 ， 比 如 国家 、 省、 市、 县 的 结构 。 因 此 , 数据 集 也 会 划分 成 一 个 树 状 结构 。 
然后 ,给 定 每 一 个 用 户 的 位 置 , 我们 可 以 将 他 分 配 到 某 一 个 叶子 节点 中 ， 而 该 叶子 节点 包含 了 所 
有 和 他 同一 个 位 置 的 用 户 的 行为 数据 集 。 然 后 ，LARS 就 利用 这 个 叶子 节点 上 的 用 户 行为 数据 ， 
通过 ItemCF 给 用 户 进行 推荐 。 
不 过 这 样 做 的 缺点 是 , 每 个 叶子 节点 上 的 用 户 数量 可 能 很 少 , 因此 他 们 的 行为 数据 可 能 过 于 
稀疏 ， 从 而 无 法 训练 出 一 个 好 的 推荐 算法 。 为 此 ,我 们 可 以 从 根 节点 出 发 ， 在 到 叶子 节点 的 过 程 
中 , 利用 每 个 中 间 节 点 上 的 数据 训练 出 一 个 推荐 模型 ， 然 后 给 用 户 生成 推荐 列表 。 而 最 终 的 推荐 
结果 是 这 一 系列 推荐 列表 的 加 权 。 文章 的 作者 将 这 种 算法 成 为 金字 塔 模型 ， 而 金字 塔 的 深度 影响 
了 推荐 系统 的 性 能 ， 因 而 深度 是 这 个 算法 的 一 个 重要 指标 。 下 文 用 LARS-U 代 表 该 算法 。 

举 一 个 简单 的 例子 ， 如 图 5-16 所 示 , 假设 有 一 个 来 自 中 国 江苏 南京 的 用 户 。 我 们 会 首先 根据 
所 有 用 户 的 行为 利用 某 种 推荐 算法 ( 假设 是 ItemCF ) 给 他 生成 推荐 列表 , 然后 利用 中 国 用 户 的 行 
为 给 他 生成 第 二 个 推荐 列表 , 以 此 类 推 , 我 们 用 中 国 江苏 的 用 户 行为 给 该 用 户 生成 第 三 个 推荐 列 
表 ，, 并 利用 中 国 江 苏 南京 的 用 户 行为 给 该 用 户 生 成 第 四 个 推荐 列表 。 然 后 , 我 们 按照 一 定 的 权重 
将 这 4 个 推荐 列表 线性 相 加 ， 从 而 得 到 给 该 用 户 的 最 终 推 荐 列表 。 















































































































































图 5-16 一 个 简单 的 利用 用 户 位 置信 息 进行 推荐 的 例子 


对 于 第 二 种 数据 集 ， 每 条 用 户 行为 表示 为 四 元 组 (用户 、 物 品 、 物 品位 置 、 评 分 )， 表 示 了 

用 户 对 某 个 位 置 的 物品 给 了 某 种 评分 。 对 于 这 种 数据 集 ，LARS 会 首先 忽略 物品 的 位 置信 息 ， 利 

用 ItemCF 算 法 计算 用 户 u 对 物品 的 兴趣 P(w,i)， 但 最 终 物 品 i 在 用 户 u 的 推荐 列表 中 的 权重 定义 为 : 
RecScorel(u,i) = P(u,i) — TravelPenalty(u, i) 


在 该 公式 中 ，TravelPenalty (u,i) 表示 了 物品 i 的 位 置 对 用 户 u 的 代价 。 计 算 Travel- 
Penalty (u,i) 的 基本 思想 是 对 于 物品 i 与 用 户 u 之 前 评分 的 所 有 物品 的 位 置 计算 距离 的 平均 值 
(或 者 最 小 值 )。 关 于 如 何 度 量 地 图 上 两 点 的 距离 ， 最 简单 的 是 基于 欧式 距离 *。 当 然 ， 欧 式 距离 
有 明显 的 缺点 , 因为 人 们 是 不 可 能 沿 着 地 图 上 的 直线 距离 从 一 点 走 到 男 一 点 的 。 比 较 好 的 度量 方 
























































人 参见 Gisli R. Hjaltason 和 Hanan Samet 的 “Distance browsing in spatial databases”( ACM 1999 Article，1999 )。 


图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


5.3 扩展 阅读 143 














式 是 利用 交通 网 络 数据 ， 将 人 们 实际 需要 走 的 最 短 距 离 作 为 距离 度量 "。 

为 了 避免 计算 用 户 对 所 有 物品 的 TravelPenalty，LARS 在 计算 用 户 u 对 物品 i 的 兴趣 度 
RecSscore (u,i) 时 ,首先 对 用 户 每 一 个 曾经 评 过 分 的 物品 (一 般 是 餐馆 、 商 店 、 景 点 )， 找 到 和 
他 上 距离 小 于 一 个 阔 值 的 所 有 其 他 物品 ， 然 后 将 这 些 物品 的 集合 作为 候选 集 ， 然 后 再 利用 上 面 的 
公式 计算 最 终 的 RecScore。 

对 于 第 三 种 数据 集 ，LARS 一 文 没 有 做 深入 讨论 。 不 过 ， 从 第 三 种 数据 集 的 定义 可 以 看 到 ， 
它 相 对 于 第 二 种 数据 集 增加 了 用 户 当前 位 置 这 一 信息 。 而 在 给 定 了 这 一 信息 后 , 我 们 应 该 保证 推 
荐 的 物品 应 该 距离 用 户 当 前 位 置 比较 近 , 在 此 基础 上 再 通过 用 户 的 历史 行为 给 用 户 推荐 离 他 近 且 
他 会 感 兴趣 的 物品 。 

为 了 证 明 兴 趣 本 地 化 和 活动 本 地 化 两 种 效应 ， 作 者 在 FourSquare 和 MovieLens 两 个 数据 集 上 
进行 了 离线 实验 。 作 者 使 用 TopN 推 荐 的 Precision 作 为 评测 指标 。 

作者 首先 在 FourSquare 数 据 集 上 对 比 了 ItemCF 算 法 和 考虑 了 TravelPenalty 之 后 的 算法 (简称 
为 LARS-T )。 结 果 证 明 考 虑 TravelPenality 确 实 能 够 提高 TopN 推 荐 的 离线 准确 率 ，LARS-IT 算 法 明 
显 优 于 ItemCF 算 法 。 

然后 ， 作 者 在 FourSquare 数 据 集 和 MovieLens 数 据 集 上 对 比 了 普通 的 ItemCF 算 法 和 考虑 用 户 
位 置 的 金字 塔 模型 后 的 LARS-U 算 法 。 同 时 ， 作 者 对 比 了 不 同 深度 对 LARS-U 算 法 的 影响 。 实 验 
表明 ， 选 择 合适 的 深度 对 LARS-U 算 法 很 重要 ， 不 过 在 绝 大 多 数 深 度 的 选择 下 ，LARS-U 算 法 在 
两 个 数据 集 上 都 优 于 普通 的 ItemCF 算 法 。 


5.3 扩展 阅读 


时 间 上 下 文 信息 在 Netflix Prize 中 得 到 了 广泛 关注 ， 很 多 参赛 者 都 研究 了 如 何 利用 这 一 信息 。 
这 方面 最 著名 的 文章 无 疑 是 Koren 的 “collaborative filtering with temporal dynamics”， 该 文系 统 地 
总 结 了 各 种 使 用 时 间 信 息 的 方式 ， 包 括 考虑 用 户 近 期 行为 的 影响 ， 考 虑 时 间 的 周期 性 等 。 

英国 剑桥 大 学 的 Neal Lathia 在 读 博 士 期 间 对 时 间 上 下 文 信息 以 及 推荐 系统 的 时 间 效 应 进行 了 
深入 研究 。 他 在 “Temporal Diversity in Recommender Systems” 一 文中 深入 分 析 了 时 间 多 样 性 对 
推荐 系统 的 影响 。 他 的 博士 论文 “Evaluating Collaborative Filtering Over Time” 论 述 了 各 种 不 同 
推荐 算法 是 如 何 随时 间 演 化 的 。 

如 果 要 系统 地 研究 与 上 下 文 推 荐 相关 的 工作 ， 可 以 参考 Alexander Tuzhili 教 授 的 工作 
( http://pages.stern.nyu.edu/~atuzhili/ )， 他 在 最 近 几 年 和 学 生 对 上 下 文 推荐 问题 进行 了 深入 研究 。 




































































人 参见 Jie Bao、Chi-Yin Chow、Mohamed F. Mokbel 和 Wei-Shinn Ku 的 “Efficient Evaluation of k-Range Nearest Neighbor 
Queries in Road Networks” ( MDM, 2012 ), 
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利用 社交 网 络 数据 


自从 搜索 引擎 谷歌 诞生 后 ,大 家 都 在 讨论 互联 网 的 下 一 个 金 矿 是 什么 。 现 在 ， 几 乎 所 有 的 人 
都 认为 那 就 是 社交 网 络 。 根 据 尼 尔 森 2010 年 的 报告 ,用 户 在 互联 网 上 22% 的 时 间 花 费 在 社交 网 站 
和 社交 媒体 上 "”。Facebook 和 Twitter 作为 两 种 不 同类 型 社交 网 络 的 代表 ， 是 目前 互联 网 界 的 宠儿 。 
谷歌 公司 也 不 甘 落 后 ， 连 续 推 出 了 很 多 社交 网 络 产品 (Buzz 和 Google Plus )。 国 内 的 互联 网 以 新 
浪 微 博 为 代表 ， 也 吸引 了 很 多 人 的 眼球 。 
基于 社交 网 络 的 推荐 可 以 很 好 地 模拟 现实 社会 。 在 现实 社会 中 , 很 多 时 候 我 们 都 是 通过 朋友 
获得 推荐 。 美 国 著名 的 第 三 方 调查 机 构 尼 尔 森 调查 了 影响 用 户 相信 某 个 推荐 的 因素 ”。 调 查 结 
显示 ，90% 的 用 户 相信 朋友 对 他 们 的 推荐 ，70% 的 用 户 相信 网 上 其 他 用 户 对 广告 商品 的 评论 。 从 
该 调查 可 以 看 到 ， 好 友 的 推荐 对 于 增加 用 户 对 推荐 结果 的 信任 度 非常 重要 。 

为 了 进一步 证 实 好友 推 荐 对 用 户 的 影响 ， 尼 和 尔 森 和 Facebook 合 作 进行 了 一 次 个 性 化 广告 实 
验 。 尼 和 尔 森 测试 了 同一 个 品牌 的 3 种 不 同形 式 的 广告 。 第 一 种 广告 和 第 二 种 广告 都 是 图 片 广告 ， 
但 两 者 的 推荐 理由 不 同 。 第 一 种 广告 的 推荐 理由 没有 社会 化 信息 ， 仅 仅 是 表示 该 品牌 受到 了 
51 930 个 用 户 的 关注 ， 而 第 二 种 广告 的 推荐 理由 是 用 户 的 某 些 好 友 关 注 了 这 个 广告 。 第 三 种 广告 
比较 特别 ， 它 是 在 用 户 的 好 友 关 注 该 品牌 时 ， 就 在 用 户 的 信息 流 中 加 入 一 条 信息 ， 告 诉 用 户 他 的 
某 个 好 友 关 注 了 一 个 品牌 。 通 过 在 线 AB 测 试 , 尼尔森 发 现 第 三 种 广告 的 效果 明显 高 于 第 二 种 ， 而 
第 二 种 广告 的 效果 明显 高 于 第 一 种 ， 从 而 证 明了 社会 化 推荐 对 于 增加 用 户 对 广告 的 印象 和 购买 意 
愿 具 有 非常 强烈 的 作用 。 同时, 该 实验 也 从 侧面 说 明 社 交 网 络 在 推荐 系统 中 可 能 具有 重要 的 作用 。 

本 章 将 详细 讨论 如 何 利用 社交 网 络 数据 给 用 户 进行 个 性 化 推荐 。 本 章 不 仅 讨 论 如 何 利 用 社交 
网 络 给 用 户 推荐 物品 ， 而 且 将 讨论 如 何 利用 社交 网 络 给 用 户 推 荐 好 友 。 


6.1 获取 社交 网 络 数据 的 途径 


现在 互联 网 上 充斥 着 各 种 各 样 带 有 社交 性 质 的 网 站 。 那么 , 从 什么 方面 可 以 获得 社交 网 络 数 
据 呢 ? 一 般 来 说 ， 有 如 下 方式 。 



































































































































































































































四 参见 “Social Media Accounts for 22% of Time Online” , http://blog.nielsen.com/nielsenwire/onlinemobile/social- 
media-accounts-for-22-percent-of-time-online/。 
@ 参见 “Global Advertising Consumers TrustReal Friends and Virtual Strangers the Most”, http://blog.nielsen.com/nielsen- 


wire/consumer/global-advertising-consumers-trust-real-friends-and-virtual-strangers-the-most/。 
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6.1.1 电子 邮件 


电子 邮件 诞生 于 1971 年 , 因此 它 的 历史 比 因特网 还 要 久远 。 但 就 是 这 个 互联 网 里 古董 级 的 应 
用 , 其 实 是 一 种 社交 工具 。 我 们 可 以 通过 分 析 用 户 的 联系 人 列表 了 解 用 户 的 好 友信 息 ， 而且 可 以 
进一步 通过 研究 两 个 用 户 之 间 的 邮件 往来 频繁 程度 度量 两 个 用 户 的 熟悉 程度 。 

不 过 , 电子 邮件 是 一 个 封闭 的 系统 , 一 般 的 研究 人 员 很 难得 到 用 户 的 联系 人 列表 和 用 户 之 间 
的 来 往 信 件 。 所 以 对 电子 邮件 中 社交 关系 的 研究 集中 在 一 些 有 大 型 电子 邮件 系统 的 公司 中 。 比 如 ， 
谷歌 在 2010 年 的 KDD 会 议 上 发 表 了 一 篇 文章 ", 其 中 就 研究 了 如 何 通 过 Gmail 系统 中 、 一 些 不 违反 
隐私 协议 的 数据 预测 用 户 之 间 的 社交 关系 ， 以 便 给 用 户 推荐 好 友 的 问题 。 

其 实 ， 如 果 我 们 获得 了 用 户 的 邮箱 ， 也 可 以 通过 邮箱 后 绥 得 到 一 定 的 社交 关系 信息 。 一 般 来 
说 ， 邮 箱 名 是 name@xxx.xxx 的 格式 。 如 果 用 户 用 的 是 公司 邮箱 ， 那 么 我 们 可 以 根据 后 级 知道 哪 
些 用 户 是 同一 家 公司 的 。 同一 家 公司 的 用 户 可 能 互相 认识 , 因而 我 们 也 可 以 获得 一 种 隐 性 的 社交 关 
系 。 正 是 由 于 电子 邮件 系统 包含 了 用 户 的 大 量 社交 信息 ,很 多 社交 网 站 ( 如 图 6-1 所 示 ) 都 在 用 户 
注册 时 提供 了 让 用 户 从 电子 邮件 联系 人 中 导入 好 友 关 系 的 功能 ， 用 以 解决 社交 网 络 的 冷 起 动 问题 。 


















































步骤 工 步骤 2 步骤 3 

搜索 朋友 添加 朋友 邀请 朋友 

EN windows Live Hotmail 

你 的 电子 邮件 : 
搜索 朋友 

€BI vahoo! 搜寻 朋友 
/ Aoi AOL 搜寻 朋友 
(C Comcast 搜寻 朋友 
全 sen。 搜寻 朋友 
(ofe) sbcglobal.net 搜寻 朋友 
ME Verizon.net 搜寻 朋友 
MM Gmail 搜寻 朋友 
世 拉 其 他 邮件 服务 搜寻 朋友 
由 HeIa 搜寻 朋友 

















截取 自 Facebook 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-1 Facebook 提供 的 导入 电子 邮件 好 友 的 方式 











人 参见 Maayan Roth、Assaf Ben-David、David Deutscher、Guy Flysher、 Ilan Horn 、AriLeichtberg 、Naty Leiser 、Yossi 
Matias 、Ron Merom 的 “Suggesting Friends Using the Implicit Social Graph” ( ACM 2010 Article, 2010 )。 
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6.1.2 用户 注册 信息 


有 些 网 站 需要 用 户 在 注册 时 填写 一 些 诸如 公司 、 学 校 等 信息 ( 如 图 6-2 所 示 )。 有 了 这 些 信息 














后 , 我 们 就 可 以 知道 哪些 用 户 曾经 在 同一 家 公司 工作 过 ,哪些 用 户 曾 经 在 同一 个 学 校 学 习 过 。 这 


也 是 一 种 隐 性 的 社交 网 络 数据 。 








居住 城市 : 
家 乡 : 





性 别 : 男生 [| 


血型 : | 选择 二 项， 辐 





兴趣 对 象 : 回 妇 性 回 男 性 





加 在 我 的 个 人 主页 中 显示 我 的 性 别 


生日 : 1985 [zw] 7 lz) 1 加 


在 个 人 主页 中 显示 我 的 完整 出 生日 期 。 [=| 


rr 
人 

















截取 自 Facebook 网 站 ， 





图 中 相关 内 容 的 著作 权 归 原著 作 权 人 














图 6-2 ”Facebook 在 | 


6.1.3 用户 的 位 置 数 据 























] 户 注册 时 让 用 


户 提供 的 一 部 分 信息 


所 有 


在 网 页 上 最 容易 拿 到 的 用 户 位 置信 息 就 是 IP 地 址 。 对 于 手机 等 移动 设备 , 我 们 可 以 拿 到 更 详 
细 的 GPS 数 据 。 位 置信 息 也 是 一 种 反映 用 户 社交 关系 的 数据 。 一 般 来 说 ， 在 给 定位 置信 息 后 ， 可 








以 通过 查 表 知 道 用 户 访问 时 的 地 址 。 这 种 地 址 在 某 些 时 候 不 太 精 确 ， 只 能 精确 到 城 














级别， 但 在 





有 些 时 候 可 以 精确 到 学 校 里 的 某 栋 宿舍 楼 或 者 某 家 公司 。 那么 , 我 们 也 可 以 合理 地 假设 同一 栋 宿 
铭 楼 或 同一 家 公司 的 用 户 可 能 有 好 友 关 系 。 








6.1.4 ”论坛 和 讨论 组 

















论坛 是 Web 1.0 的 产品 ， 它 允许 用 户 在 一 个 讨论 区 就 某 一 类 话题 进行 讨论 。 比 如 ， 豆 关上 有 
很 多 小 组 , 每 个 小 组 都 包含 一 些 志 同道 合 的 人 。 如 果 两 个 用 户 同时 加 入 了 很 多 不 同 的 小 组 , 我 们 
可 以 认为 这 两 个 用 户 很 可 能 互相 了 解 或 者 具有 相似 的 兴趣 。 如果 两 个 用 户 在 讨论 组 中 曾经 就 某 一 


个 帖子 共同 进行 过 讨论 ， 那 就 更 加 说 明 他 们 之 间 的 熟悉 程度 或 兴趣 相似 度 很 高 。 
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6.1.5 即时 聊天 工具 


和 电子 邮件 一 样 ， 即 时 聊天 工具 也 是 一 个 早 于 Facebook 和 Twitter 的 早期 互联 网 社交 应 用 。 它 
可 以 让 用 户 在 网 上 实时 地 通过 文字 、 语音 和 视频 等 方式 进行 交流 。 很 多 即时 聊天 工具 往往 都 和 电 
子 邮 件 系 统 深度 集成 ， 比 如 MSN、GTalk 都 依赖 于 自己 的 电子 邮件 系统 ， 而 国产 的 即时 聊天 工 
具 QQ 后 来 也 集成 了 QQ 邮件 系统 。 

和 电子 邮件 系统 一 样 , 用 户 在 即时 聊天 工具 上 也 会 有 一 个 联系 人 列表 , 而 且 往 往 还 会 给 联系 
人 进行 分 组 。 通过 这 个 列表 和 分 组 信息 ,我们 就 可 以 知道 用 户 的 社交 网 络 关系 ， 而 通过 统计 用 户 
之 间 聊 天 的 频繁 程度 ， 可 以 度量 出 用 户 之 间 的 熟悉 程度 。 

但 是 ， 即 时 聊天 工具 和 电子 邮件 一 样 ,也 是 一 个 封闭 的 系统 ,获取 用 户 的 即时 聊天 信息 是 非 
常 困难 的 ,这 里 面 存 在 着 很 多 隐私 问题 。 一 般 来 说 ， 绝 大 部 分 用 户 不 会 公开 他 们 的 联系 人 列表 和 
聊天 记录 。 





















































6.1.6 ”社交 网 站 


上 述 各 种 获取 用 户 社交 关系 的 途径 , 要 么 就 是 因为 隐私 问题 很 难 获 取 , 要 么 就 是 虽然 容易 获 
取 ， 但 却 都 是 隐 性 社交 关系 数据 ， 很 难 推断 出 用 户 之 间 的 显 性 社交 关系 。 在 Facebook 和 Twitter 诞 
生 之 前 ,社会 化 应 用 (无 论 是 电子 邮件 系统 还 是 即时 聊天 系统 ) 都 过 于 封闭 。 用 户 只 能 和 自己 的 
好 友 进 行 交 流 ， 而 无 法 了 解 到 好 友 圈 以 外 的 世界 ， 而 且 用 户 之 间 交 流 的 内 容 都 是 非常 私密 的 , 大 
部 分 用 户 不 会 允许 将 它们 公开 来 用 作 其 他 用 途 。 

但 以 Facebook 和 Twitter 为 代表 的 新 一 代 社 交 网 络 突破 了 这 个 瓶颈 。 它 们 允许 用 户 创建 一 个 公 
开 的 页 面 介绍 自己 , 并 且 默 认 公开 用 户 的 好 友 列 表 ( 当然 用 户 可 以 指定 不 将 某 些 好 友 公 开 , 但 如 
果 用 户 不 指定 ， 默 认 是 公开 的 )， 而 用 户 基 于 它们 讨论 的 话题 也 很 少 涉及 个 人 隐私 ， 大 都 是 讨论 
一 些 社会 热点 或 分 享 一 些 图 片 、 音 乐 、 视 频 和 笑话 。 

社交 网 站 的 另 一 个 好 处 是 自然 地 减轻 了 信息 过 载 问题 。 在 社交 网 站 中 , 我 们 可 以 通过 好 友 给 
自己 过 滤 信 息 。 比 如， 我 们 只 关注 那些 和 我 们 兴趣 相似 的 好 友 ， 只 阅读 他 们 分 享 的 信息 ， 因 此 可 
以 避免 阅读 很 多 和 自己 无 关 的 信息 。 个 性 化 推荐 系统 可 以 利用 社交 网 站 公开 的 用 户 社交 网 络 和 行 
为 数据 ,辅助 用 户 更 好 地 完成 信息 过 滤 的 任务 , 更 好 地 找到 和 自己 兴趣 相似 的 好 友 ， 更 快 地 找到 
自己 感 兴趣 的 内 容 。 

1. 社会 图 谱 和 兴趣 图 谱 

Facebook 和 Twitter 作为 社交 网 站 中 的 两 个 代表 ， 它 们 其 实 代 表 了 不 同 的 社交 网 络 结构 。 在 
Facebook 里 ， 人 们 的 好 友 一 般 都 是 自己 在 现实 社会 中 认识 的 人 *"， 比 如 亲戚、 同学、 同事 等 ， 而 
且 Facebook 中 的 好 友 关 系 是 需要 双方 确认 的 。 在 Twitter 里 ， 人 们 的 好 友 往 往 都 是 现实 中 自己 不 
































































































































人 参见 “Friends & Frenemies: Why We Add and Remove Facebook Friends”， 地 址 为 http://blog.nielsen.com/nielsenwire/ 
了 online_ mobile/friends-frenemies-why-we-add-and-remove-facebook-friends/， 尼 和 尔 森 的 这 个 报告 表明 82% 的 用 户 会 
因为 在 现实 社会 中 认识 而 在 Facebook 中 加 好 友 。 
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认识 的 ， 而 只 是 出 于 对 对 方言 论 的 兴趣 而 建立 好 友 关 系 ， 好 友 关 系 也 是 单 向 的 关注 关系 。 以 
Facebook 为 代表 的 社交 网 络 称 为 社交 图 谱 ( social graph )， 而 以 Twitter 为 代表 的 社交 网 络 称 为 兴 
趣 图 谱 ( interest graph )。 

关于 这 两 种 社交 网 络 的 分 类 其 实 早 在 19 世 纪 就 被 社会 学 家 研究 过 了 。19 世 纪 , 德国 社会 学 家 
斐 迪 南 ， 腾 尼 斯 ( Ferdinand Tinnies ) 认为 社会 群体 分 为 两 种 ， 一 种 是 通过 人 们 之 间 的 共同 兴 
和 信念 形成 的 , 他 将 这 种 社会 群体 称 为 Gemeinschaft, 而 Gemeinschaft 这 个 词 后 来 被 翻译 成 英语 就 
是 community ， 即 汉语 中 的 社区 。 另 一 种 社会 群体 则 是 由 于 人 们 之 间 的 亲属 关系 ， 工 作 关 系 而 形 
成 的 ， 他 称 之 为 Gesellschaft， 英 文 翻译 为 society， 即 汉语 中 的 “社会 ”。 因 此 ， 斐 迪 南 ， 腾 尼 时 
说 的 Gemeinschaft 就 是 兴趣 图 谱 ， 而 Gesellschaft 就 是 社会 图 谱 。 

但 是 ,每 个 社会 化 网 站 都 不 是 单纯 的 社交 图 谱 或 者 兴趣 图 谱 。 一 般 认 为 ，Facebook 中 的 绝 大 
多 数 用 户 联 系 基于 社交 图 谱 ， 而 Twitter 中 的 绝 大 多 数 用 户 联系 基于 兴趣 图 谱 。 但 是 ， 在 Twitter 
或 者 微 博 中 ， 我 们 也 会 关注 现实 中 的 亲朋 好 友 ， 在 Facebook 中 我 们 也 会 和 一 部 分 好 友 有 同样 的 
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6.2 ”社交 网 络 数据 简介 


社交 网 络 定义 了 用 户 之 间 的 联系 ， 因 此 可 以 用 图 定义 社交 网 络 。 我 们 用 图 G(PBR) 定 义 一 个 
社交 网 络 ， 其 中 7 是 项 点 集合 ， 每 个 顶点 代表 一 个 用 户 ，E 是 边 集合 ， 如 果 用 户 y 和 ww 有 社交 网 络 
关系 ， 那 么 就 有 一 条 边 e(v,,v,) 连接 这 两 个 用 户 ， 而 wv,,v,) 定义 了 边 的 权重 。 业 界 有 两 种 著名 
的 社交 网 络 。 一 种 以 Facebook 为 代表 ，, 它 的 朋友 关系 是 需要 双向 确认 的 ， 因 此 在 这 种 社交 网 络 上 
可 以 用 无 向 边 连接 有 社交 网 络 关系 的 用 户 。 另 一 种 以 Twitter 为 代表 ， 它 的 朋友 关系 是 单 向 的 ， 
此 可 以 用 有 向 边 代 表 这 种 社交 网 络 上 的 用 户 关系 。 


























此 外 ， 对 图 G 中 的 用 户 顶 点 u， 定 义 out(w) 为 顶点 u 指 向 的 项 点 集合 ( 如 果 套用 微 博 中 的 术语 ， 
out(w) 就 是 用 户 u 关 注 的 用 户 集合 )， 定 义 in(w) 为 指向 顶点 u 的 顶点 集合 ( 也 就 是 关注 用 户 u 的 用 户 


集合 )。 那 么 ， 在 Facebook 这 种 无 向 社交 网 络 中 显然 有 out(u)=in(n)。 
一 般 来 说 ， 有 3 种 不 同 的 社交 网 络 数据 。 

口 双向 确认 的 社交 网 络 数据 ”在 以 Facebook 和 人 人 网 为 代表 的 社交 网 络 中 ， 用 户 A 和 B 之 间 

形成 好 友 关 系 需 要 通过 双方 的 确认 。 因 此 ， 这 种 社交 网 络 一 般 可 以 通过 无 向 图 表示 。 

口 单 向 关注 的 社交 网 络 数据 在 以 Twitter 和 新 浪 微 博 为 代表 的 社交 网 络 中 ， 用 户 A 可 以 关注 
用 户 B 而 不 需要 得 到 用 户 B 的 允许 ， 因 此 这 种 社交 网 络 中 的 用 户 关系 是 单 向 的 ， 可 以 通过 
有 问 图 表示 。 

口 基于 社区 的 社交 网 络 数 据 ”还 有 一 种 社交 网 络 数据 ， 用 户 之 间 并 没有 明确 的 关系 ,但 是 
这 种 数据 包含 了 用 户 属于 不 同 社区 的 数据 。 比 如 豆 辩 小 组 ， 属 于 同一 个 小 组 可 能 代表 了 
用 户 兴趣 的 相似 性 。 或 者 在 论文 数据 集中 ， 同 一 篇 文章 的 不 同 作者 也 存在 着 一 定 的 社交 
关系 。 或 者 是 在 同一 家 公司 工作 的 人 ， 或 是 同一 个 学 校 毕业 的 人 等 。 
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社交 网 络 数据 中 的 长 尾 分 布 


和 前 面 第 2 章 提 到 的 用 户 活跃 度 分 布 和 物品 流行 度 分 布 类 似 ， 社 交 网 络 中 用 户 的 入 度 ( in 


degree ) 和 出 度 ( out degree ) 的 分 布 也 是 满足 长 尾 分 布 的 。 


本 节 利 用 了 Slashdot 的 社交 网 络 数 据 集 "统计 了 用 户 入 度 和 出 度 的 分 布 。Slashdot 的 社交 网 络 
类 似 于 Twitter， 是 一 个 有 向 图 结构 。 因 此 ， 用 户 的 人 度 反 映 了 用 户 的 社 
用 户 的 人 度 近似 长 尾 分 布 ， 这 说 明 在 一 个 社交 网 络 中 影响 力 大 的 用 户 总 是 占 少 数 。 
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响 力 。 如 图 6-3 所 示 ， 
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图 6-3 ”社交 网 络 (Slashdot ) 中 


同样 ， 图 6-4 展 示 了 Slashdot 社 交 网 络 中 用 户 出 度 的 分 布 ， 而 出 度 代 表 了 一 个 用 户 关注 的 用 户 
数 ， 该 图 说 明 在 一 个 社交 网 络 中 ， 关 注 很 多 人 的 用 户 占 少数 ， 而 绝 大 多 数 用 户 只 关注 很 少 的 人 。 








用 户 入 度 的 分 布 
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图 6-4 ”社交 网 络 ( Slashdot ) 中 
































户 出 度 的 分 布 








Q@ 数据 集 来 自 Stanford Large Network Dataset Collection， 参 见 http://snap.stanford.edu/data/。 
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6.3 ”基于 社交 网 络 的 推荐 


很 多 网 站 都 利用 Facebook 的 社交 网 络 数据 给 用 户 提供 社会 化 推荐 。 如 图 6-5 所 示 ， 视 频 推 荐 
网 站 Clicker 利 用 用 户 在 Facebook 的 好 友信 息 给 用 户 推荐 好 友 喜 欢 的 视频 , 并 且 用 好 友 进 行 了 推荐 
解释 。 如 图 6-6 所 示 ， 亚 马 逊 网 利用 用 户 在 Facebook 的 好 友信 息 给 用 户 推荐 好 友 喜 欢 的 商品 ， 同 
时 也 使 用 好 友 进 行 了 推荐 解释 。 








Family Guy: Lottery Fever 





Season 10: Episode 1 (21:36) Date: Sep 25, 2011 
The Griffins strike it rich 

Available at: iTunes | Hulu Plus 

Joel Resnicow and 4 other friends like Family Guy 


风电 浊 口令 
截取 自 Clicker 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-5 ”视频 推荐 网 站 Clicker 利 用 Facebook 好 友信 息 给 用 户 推荐 视频 
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截取 自 亚马逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-6 “亚马逊 利用 Facebook 好 友信 息 给 用 户 推荐 商品 


社会 化 推荐 之 所 以 受到 很 多 网 站 的 重视 ， 是 缘 于 如 下 优点 。 

口 好 友 推 荐 可 以 增加 推荐 的 信任 度 “好友 往 往 是 用 户 最 信任 的 。 用 户 往往 不 一 定 信任 计算 
机 的 智能 ， 但 会 信任 好 朋友 的 推荐 。 同 样 是 给 用 户 推荐 《天 龙 八 部 》 前 面 提 到 的 基于 物 
品 的 协同 过 滤 算 法 会 说 是 因为 用 户 之 前 看 过 《 射 雕 英雄 传 》 而 好 友 推 荐 会 说 是 因为 用 户 
有 8 个 好 友 都 非常 喜欢 《天 龙 八 部 六 对 比 这 两 种 解释 ， 第 二 种 解释 一 般 能 让 用 户 更 加 心 
动 ， 从 而 购买 或 者 观看 《天 龙 八 部 》。 

口 社交 网 络 可 以 解决 冷 启动 问题 “ 当 一 个 新 用 户 通 过 微 博 或 者 Facebook 账 号 登录 网 站 时 ， 
我 们 可 以 从 社交 网 站 中 获取 用 户 的 好 友 列 表 , 然后 给 用 户 推荐 好 友 在 网 站 上 喜欢 的 物品 。 
从 而 我 们 可 以 在 没有 用 户 行为 记录 时 就 给 用 户 提 供 较 高 质量 的 推荐 结果 ， 部 分 解决 了 推 
荐 系统 的 冷 启 动 问题 。 

当然 ,社会 化 推荐 也 有 一 些 缺 点 , 其 中 最 主要 的 就 是 很 多 时 候 并 不 一 定 能 提高 推荐 算法 的 离 
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线 精度 ( 准确 率 和 召回 率 )。 特 别 是 在 基于 社交 图 谱 数 据 的 推荐 系统 中 ， 因 为 用 户 的 好 友 关 系 不 
是 基于 共同 兴趣 产生 的 ,所 以 用 户 好 友 的 兴趣 往往 和 用 户 的 兴趣 并 不 一 致 。 比 如 ,我 们 和 自己 父 
母 的 兴趣 往往 就 差别 很 大 。 不 过 ,因为 社会 化 推荐 算法 不 一 定 能 提供 离线 精度 ， 而 且 包含 社交 网 
络 数据 和 用 户 行为 数据 的 数据 集 不 太 多 ， 因 此 本 章 不 准备 通过 离线 实验 证 明 社 会 化 推荐 的 优势 。 
2010 年 ，ACM 推 荐 系统 大 会 的 一 个 讨论 组 CAMRa 曾 经 举办 过 一 个 关于 社交 网 络 的 推荐 系统 
比赛 "。 该 比赛 希望 参赛 者 能 够 利用 用 户 之 间 的 好 友 关 系 给 用 户 推荐 电影 ， 并 且 利 用 准确 率 相关 
的 指标 评测 参赛 者 的 推荐 算法 。 对 社会 化 推荐 感 兴趣 的 读者 可 以 关注 一 下 该 会 议 的 相关 论文 。 


6.3.1 基于 邻 域 的 社会 化 推荐 算法 






































如 果 给 定 一 个 社交 网 络 和 一 份 用 户 行为 数据 集 。 其 中 社交 网 络 定 义 了 用 户 之 间 的 好 友 关 系 ， 而 用 
户 行为 数据 集 定义 了 不 同 用 户 的 历史 行为 和 兴趣 数据 。 那 么 我 们 想到 的 最 简单 算法 是 给 用 户 推荐 
好 友 喜 欢 的 物品 集合 。 妈 用户 u 对 物品 的 兴趣 p,, 可 以 通过 如 下 公式 计算 。 








Pui = > hi 


veout(u) 

其 中 out(w) 是 用 户 u 的 好 友和 集合 ， 如 果 用 户 v 喜 欢 物 品 :， 则 1， 否 则 0。 不 过 ， 即 使 都 是 

用 户 u 的 好 友 , 不 同 的 好 友和 用 户 u 的 熟悉 程度 和 兴趣 相似 度 也 是 不 同 的 。 因 此 , 我 们 应 该 在 推荐 
算法 中 考虑 好 友和 用 户 的 熟悉 程度 以 及 兴趣 相似 度 : 


Pi 至 > WT 


veout(u) 

这 里 ，w,, 由 两 部 分 相似 度 构 成 , 一 部 分 是 用 户 u 和 用 户 v 的 熟悉 程度 , 另 一 部 分 是 用 户 u 和 用 
户 v 的 兴趣 相似 度 。 用 户 u 和 用 户 v 的 熟悉 程度 ( familiarity ) 描述 了 用 户 u 和 用 户 v 在 现实 社会 中 的 
熟悉 程度 。 一 般 来 说 ,用 户 更 加 相信 自己 熟悉 的 好 友 的 推荐 ,因此 我 们 需要 考虑 用 户 之 间 的 熟悉 
度 。 熟 悉 度 可 以 用 用 户 之 间 的 共同 好 友 比 例 来 度量 。 也 就 是 说 如 果 用 户 u 和 用 户 v 很 熟悉 , 那么 一 
般 来 说 他 们 应 该 有 很 多 共同 的 好 友 。 












































[out(u) 站 out(v)| 
[lout(u) Uout(v)| 

除了 熟悉 程度 ， 还 需要 考虑 用 户 之 间 的 兴趣 相似 度 。 我 们 都 和 父母 很 熟悉 , 但 很 多 时 候 我 们 
和 父母 的 兴趣 却 不 相似 ， 因 此 也 不 会 喜欢 他 们 喜欢 的 物品 。 因 此 , 在 度量 用 户 相似 度 时 还 需要 考 
虑 兴趣 相似 度 (similarity )， 而 兴趣 相似 度 可 以 通过 和 UserCF 类 似 的 方法 度量 ， 即 如 果 两 个 用 户 
喜欢 的 物品 集合 重合 度 很 高 ， 两 个 用 户 的 兴趣 相似 度 很 高 。 
IN(u) NN NO) 
INXCOUNO] 


familiarity(u, v) = 
































similiarity(u, ») = 

















其 中 N(w) 是 用 户 u 喜 欢 的 物品 集合 。 





@ 参见 http://www.dai-labor.de/camra2010/。 
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下 面 的 代码 实现 社会 化 推荐 的 逻辑 。 在 代码 中 ,familiarity 存 储 了 每 个 用 户 最 熟悉 的 K 个 
好 友和 他 们 的 熟悉 程度 ，similarity 存 储 了 和 每 个 用 户 兴 趣 最 相关 的 K 好 友和 他 们 的 兴趣 相似 
度 。train 记 录 了 每 个 用 户 的 行为 记录 ， 其 中 train [ul 记录 了 用 户 u 喜 欢 的 物品 列表 。 


def Recommend (uid, familiarity, similarity, train): 
kank 三 : ALet() 
interacted_ items = train[uid] 
for fid,fw in familiarity [uid]: 
for item,pw in train[fid]: 
# if user has already know the item 
# do not recommend it 
if item in interacted_ items: 
continue 
addToDict (rank, item, fw * pw) 
for vid,sw in Similarity[uid] : 














for item,pw in train[vid] : 
if item in interacted_items: 
continue 





addToDict (rank, item, sw * pw) 
return rank 


6.3.2 ”基于 图 的 社会 化 推荐 算法 


前 儿童 都 提 到 了 如 何在 推荐 系统 中 使 用 图 模型 ， 比 如 用 户 物品 二 分 图 、 用 户 -物品 -标签 图 模 
型 等 。 从 前 面 几 章 的 介绍 可 以 看 到 ,图 模型 的 优点 是 可 以 将 各 种 数据 和 关系 都 表示 到 图 上 去 。 在 
社交 网 站 中 存在 两 种 关系 ,一 种 是 用 户 对 物品 的 兴趣 关系 ,一 种 是 用 户 之 间 的 社交 网 络 关 系 。 本 
节 主 要 讨论 如 何 将 这 两 种 关系 建立 到 图 模型 中 ， 从 而 实现 对 用 户 的 个 性 化 推荐 。 

用 户 的 社交 网 络 可 以 表示 为 社交 网 络 图 , 用 户 对 物品 的 行为 可 以 表示 为 用 户 物品 二 分 图 , 而 
这 两 种 图 可 以 结合 成 一 个 图 。 图 6-7 是 一 个 结合 了 社交 网 络 图 和 用 户 物 品 二 分 图 的 例子 。 该 图 上 
有 用 户 顶 点 〈 圆 圈 ) 和 物品 顶点 (方块 ) 两 种 顶点 。 如 果 用 户 u 对 物品 产生 过 行为 ， 那 么 两 个 节 
点 之 间 就 有 边 相 连 。 比 如 该 图 中 用 户 A 对 物品 4a、e 产 生 过 行为 。 如 果 用 户 u 和 用 户 v 是 好 友 ， 那 么 
也 会 有 一 条 边 连 接 这 两 个 用 户 ， 比 如 该 图 中 用 户 A 就 和 用 户 B、D 是 好 友 。 
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图 6-7 社交 网 络 图 和 用 户 物品 二 分 图 的 结合 
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在 定义 完 图 中 的 顶点 和 边 后 , 需要 定义 边 的 权重 。 其 中 用 户 和 用 户 之 间 边 的 权重 可 以 定义 为 
用 户 之 间 相 似 度 的 w 倍 (包括 熟悉 程度 和 兴趣 相似 度 )， 而 用 户 和 物品 之 间 的 权重 可 以 定义 为 用 
户 对 物品 喜欢 程度 的 倍 。w 和 需要 根据 应 用 的 需求 确定 。 如 果 我 们 希望 用 户 好 友 的 行为 对 
推荐 结果 产生 比较 大 的 影响 , 那么 就 可 以 选择 比较 大 的 w 。 相 反 ， 如果 我 们 希望 用 户 的 历史 行为 
对 推荐 结果 产生 比较 大 的 有 影响， 就 可 以 选择 比较 大 的 6 。 

在 定义 完 图 中 的 顶点 、 边 和 边 的 权重 后 ， 我 们 就 可 以 利用 前 面 几 章 提 到 的 PersonalRank 图 排 
序 算 法 给 每 个 用 户 生成 推荐 结果 。 

在 社交 网 络 中 ,除了 常见 的 、 用 户 和 用 户 之 间 直 接 的 社交 网 络 关 系 ,， 还 有 一 种 关系 ， 即 两 个 
用 户 属于 同一 个 社 群 。Quan Yuan 等 详细 研究 了 这 两 种 社交 网 络 关系 ”， 他们 将 第 一 种 社交 网 络 关 
系 称 为 friendship， 而 将 第 二 种 社交 网 络 关 系 称 为 membership。 如 果 要 在 前 面 提 到 的 基于 邻 域 的 
社会 化 推荐 算法 中 考虑 membership 的 社交 关系 ， 可 以 利用 两 个 用 户 加 入 的 社区 重合 度 计算 用 户 
相似 度 ， 然 后 给 用 户 推 荐 和 他 相似 的 用 户 喜欢 的 物品 。 但 是 ， 如 果 利 用 图 模型 ， 我 们 就 很 容易 
同时 对 friendship 和 membership 建 模 。 如 图 6-8 所 示 ， 可 以 加 入 一 种 节点 表示 社 群 ( 最 左边 一 列 
的 节点 ), 而 如 果 用 户 属 于 某 一 社 群 , 图 中 就 有 一 条 边 联系 用 户 对 应 的 节点 和 社 群 对 应 的 节点 。 
在 建立 完 图 模型 后 ， 我 们 就 可 以 通过 前 面 提 到 的 基于 图 的 推荐 算法 ( 比如 PersonalRank ) 给 用 户 
推荐 物品 。 















































社 群 用 户 物品 


















































图 6-8 ”融合 两 种 社交 网 络 信 息 的 图 模型 


6.3.3 ”实际 系统 中 的 社会 化 推荐 算法 


6.3.1 节 提出 的 基于 邻 域 的 社会 化 推荐 算法 看 起 来 非常 简单 ， 但 在 实际 系统 中 却 是 很 难 操作 
的 , 这 主要 是 因为 该 算法 需要 拿 到 用 户 所 有 好 友 的 历史 行为 数据 ,而 这 一 操作 在 实际 系统 中 是 比 





人 参见 Quan Yuan、LiChen 和 Shiwan Zhao 的 “Factorization vs. regularization: fusing heterogeneous social relationships in 
top-n recommendation” ( ACM 2011 Article, 2011 )。 
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较 重 的 操作 。 因 为 大 型 网 站 中 用 户 数目 非常 庞大 , 用 户 的 历史 行为 记录 也 非常 庞大 ,所 以 不 太 可 

能 将 用 户 的 所 有 行为 都 缓存 在 内 存 中 ,只 能 在 数据 库 前 做 一 个 热 数据 的 缓存 。 而 如 果 我 们 需要 比 

较 实 时 的 数据 , 这 个 缓存 中 的 数据 就 要 比较 频繁 地 更 新 , 因而 避免 不 了 数据 库 的 查询 。 我 们 知道 ， 

数据 库 查询 一 般 是 很 慢 的 ,特别 是 针对 行为 很 多 的 用 户 更 是 如 此 。 所 以 ,如 果 一 个 算法 再 给 一 个 

用 户 做 推荐 时 ， 需 要 他 所 有 好 友 的 历史 行为 数据 ， 这 在 实际 环境 中 是 比较 困难 的 。 

如 果 回 想 一 下 ItemCF 可 以 发 现 ,ItemCF 算 法 只 需要 当前 用 户 的 历史 行为 数据 和 物品 的 相关 表 
就 可 以 生成 推荐 结果 。 对 于 物品 数 不 是 特别 多 的 网 站 , 可 以 很 容易 地 将 物品 相关 表 组 存在 内 存 中 ， 
因此 查询 相关 物品 的 代价 很 低 ， 所 以 ItemCF 算 法 很 容易 在 实际 环境 下 实现 。 

当然 , 我 们 可 以 从 几 个 方面 改进 基于 邻 域 的 社会 化 推荐 算法 , 让 它 能 够 具有 比较 快 的 响应 时 
间 。 改 进 的 方向 有 两 种 ， 一 种 是 治标 不 治本 的 方法 。 简 单 地 说 ， 就 是 可 以 做 两 处 截断 。 第 一 处 截 
断 就 是 在 使用 户 好 友 集 合 时 并 不 拿 出 用 户 所 有 的 好 友 , 而 是 只 拿 出 和 用 户 相 似 度 最 高 的 N 个 好 友 。 
这 里 可 以 取 一 个 比较 小 的 数 。 从 而 给 该 用 户 做 推荐 时 可 以 只 查询 N 次 用 户 历 史 行为 接口 。 此 外 ， 
在 查询 每 个 用 户 的 历史 行为 时 ， 可 以 只 返回 用 户 最 近 1 个 月 的 行为 ,这样 就 可 以 在 用 户 行为 缓存 
中 缓存 更 多 用 户 的 历史 行为 数据 ,从 而 加 快 查 询 用 户 历史 行为 接口 的 速度 。 此 外 ,还 可 以 牺牲 一 
定 的 实时 性 ， 降 低 缓存 中 用 户 行为 列表 过 期 的 频率 。 

而 第 二 种 解决 方案 需要 重新 设计 数据 库 。 通过 前 面 的 分 析 可 以 发 现 , 社会 化 推荐 中 关键 的 操 
作 就 是 拿 到 用 户 所 有 好 友 的 行为 数据 ,， 然 后 通过 一 定 的 聚合 展示 给 用 户 。 如 果 对 照 一 下 微 博 , 我 
们 就 可 以 发 现 微 博 中 每 个 用 户 都 有 一 个 信息 墙 ， 这 个 墙 上 实时 展示 着 用 户 关 注 的 所 有 好 友 的 动 
态 。 因 此 ， 如 果 能 够 实现 这 个 信息 墙 ， 就 能 够 实现 社会 化 推荐 算法 。Twitter 的 解决 方案 是 给 每 
个 用 户 维护 一 个 消息 队列 ( message queue )， 当 一 个 用 户 发 表 一 条 微 博 时 ， 所 有 关注 他 的 用 户 的 
消息 队列 中 都 会 加 入 这 条 微 博 。 这 个 实现 的 优点 是 用 户 获取 信息 墙 时 可 以 直接 读 消 息 队 列 ， 所 
以 终端 用 户 的 读 操作 很 快 。 不 过 这 个 实现 也 有 缺点 ， 当 一 个 用 户 发 表 了 一 条 微 博 ， 就 会 触发 很 
多 写 操作 ,因为 要 更 新 所 有 关注 他 的 用 户 的 消息 队列 , 特别 是 当 一 个 人 被 很 多 人 关注 时 ， 就 会 有 
大 量 的 写 操 作 。Twitter 通 过 大 量 的 缓存 解决 了 这 一 问题 。 具体 的 细节 可 以 参考 InfoQ 对 Twitter 架构 
的 介绍 "。 

如 果 将 Twitter 的 架构 搬 到 社会 化 推荐 系统 中 ， 我 们 就 可 以 按照 如 下 方式 设计 系统 : 

口 首先 ， 为 每 个 用 户 维护 一 个 消息 队列 ， 用 于 存储 他 的 推荐 列表 ; 

口 当 一 个 用 户 喜 欢 一 个 物品 时 ， 就 将 (物品 ID 、 用 户 ID 和 时 间 ) 这 条 记录 写 人 关注 该 用 户 

的 推荐 列表 消息 队列 中 ; 

口 当 用 户 访问 推荐 系统 时 ， 读 出 他 的 推荐 列表 消息 队列 ， 对 于 这 个 消息 队列 中 的 每 个 物品 ， 
重新 计算 该 物品 的 权重 。 计 算 权 重 时 需要 考虑 物品 在 队列 中 出 现 的 次 数 ， 物 品 对 应 的 用 
户 和 当前 用 户 的 熟悉 程度 、 物 品 的 时 间 戳 。 同 时 ， 计 算出 每 个 物品 被 哪些 好 友 喜 欢 过 ， 
用 这 些 好 友 作 为 物品 的 推荐 解释 。 
























































































































































































































































人 参见 “Twitter an Evolving Architecture”， 地 址 为 http://www.infoq.com/news/2009/06/Twitter-Architecture。 
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6.3.4 ”社会 化 推荐 系统 和 协同 过 滤 推 荐 系统 


关于 社会 化 推荐 系统 的 离线 评测 可 以 参考 Georg Groh 和 Christian Ehmig 的 工作 成 果 ”。 不 过 社 

会 化 推荐 系统 的 效果 往往 很 难 通过 离线 实验 评测 ， 因 为 社会 化 推荐 的 优势 不 在 于 增加 预测 准确 

度 , 而 是 在 于 通过 用 户 的 好 友 增 加 用 户 对 推荐 结果 的 信任 度 , 从 而 让 用 户 单 击 那些 很 冷门 的 推荐 

结果 。 此 外 , 很 多 社交 网 站 ( 特别 是 基于 社交 图 谱 的 社交 网 站 ) 中 具有 好 友 关 系 的 用 户 并 不 一 定 

有 相似 的 兴趣 。 因 此 ， 利 用 好 友 关 系 有 时 并 不 能 增加 离线 评测 的 准确 率 和 召回 率 。 因 此 ,很 多 研 

究 人 员 利 用 用 户 调查 和 在 线 实验 的 方式 评测 社会 化 推荐 系统 。 

对 社会 化 推荐 系统 进行 用 户 调查 的 代表 性 工作 成 果 是 Rashmi Sinha 和 Kirsten Swearingen 对 比 
社会 化 推荐 系统 和 协同 过 滤 推 荐 系统 的 论文 >。 这 一 节 将 简单 介绍 一 下 他 们 的 工作 方法 和 结果 。 

一 共有 19 个 人 参加 了 实验 , 他 们 都 来 自 加 州 大 学 伯克利 分 校 , 年 龄 为 20~35 岁 ,其 中 6 名 男性 
13 名 女性 , 9 名 实验 人 员 从 事 互联 网 技术 相关 的 工作 , 而 剩 下 10 位 从 事 的 工作 和 互联 网 技术 无 关 。 

Sinha 首 先 让 他 们 进行 第 一 项 任务 : 评测 3 个 真实 的 电影 推荐 系统 ( Amazon、MovieCritic、 

Reel.co ) 和 3 个 真实 的 图 书 推荐 系统 ( Amazon.com、 RatingZone 、 Sleeper )。 在 评测 每 一 个 真实 

推荐 系统 时 ， 参 试 者 需要 按照 如 下 顺序 完成 实验 。 

口 利用 一 个 虚假 的 邮箱 注册 推荐 系统 ， 从 而 保证 这 些 新 账号 没有 任何 历史 行为 。 

口 利用 新 注册 的 账号 给 电影 、 图 书 进行 评分 。 

口 查看 推荐 列表 。 

口 如 果 一 开始 的 推荐 列表 中 没有 符合 用 户 兴 趣 的 物品 ， 用 户 将 被 要 求 从 该 网 站 中 搜索 到 至 

少 一 个 令 他 们 感 兴趣 的 物品 ， 如 果实 在 找 不 到 ， 可 以 停止 搜索 。 

口 回答 调查 问卷 。 

在 完成 真实 推荐 系统 的 评测 任务 后 ， 参 试 者 还 需要 评测 社会 化 推荐 系统 。 实 验 步骤 如 下 。 

口 每 个 参 试 者 需要 提供 3 个 他 们 认为 了 解 其 兴趣 的 好 友 的 邮箱 。 

口 实验 人 员 给 每 个 好 友 发 邮件 ， 要 求 他 们 给 参 试 者 推荐 3 本 书 和 3 部 电影 ， 并 且 要 求 这 些 书 
和 电影 不 能 是 参 试 者 之 前 和 他 们 讨论 过 的 ， 即 不 能 是 参 试 者 之 前 告诉 他 们 并 表示 喜欢 的 
物品 。 

口 参 试 者 将 会 看 到 好 友 推 荐 的 书 和 电影 的 缩 略 图 以 及 一 段 简单 的 介绍 。 

口 回答 调查 问卷 。 

作者 通过 分 析 用 户 实验 的 过 程 和 最 终 回答 的 调查 问卷 证 明 , 社会 化 推荐 系统 推荐 结果 的 用 户 
满意 度 明 显 高 于 主要 基于 协同 过 滤 算 法 的 几 个 真实 推荐 系统 。 具 体 的 数据 可 以 参考 作者 的 论文 。 

这 里 仅 引 用 亚马逊 网 的 图 书 推荐 和 好 友 推 荐 的 结果 对 比 。60% 的 参 试 者 认为 亚马逊 网 的 图 书 推 荐 

是 好 的 推荐 ，32% 的 参 试 者 认为 亚马逊 网 的 图 书 推荐 是 有 用 的 推荐 。 与 之 形成 对 比 的 是 ，90% 的 

参 试 者 认为 好 友 的 图 书 推荐 是 好 的 推荐 ，78% 的 参 试 者 认为 好 友 的 图 书 推荐 是 有 用 的 推荐 。 从 这 





























































































































人 参见 “Recommendations in Taste Related Domains: Collaborative Filtering vs. Social Filtering ”， 2007 年 。 
人 @) 参见 “Comparing Recommendations Made by Online Systems and Friends”，2001 年 。 
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个 数据 可 以 看 出 ， 好 友 推 荐 结果 的 用 户 满意 度 明 显 高 于 基于 协同 过 滤 的 亚马逊 推荐 系统 。 
不 过 作者 也 承认 实验 存在 一 些 问题 。 其 中 两 个 主要 的 问题 如 下 : 
口 不 是 双 盲 实验 ， 参 试 者 知道 什么 结果 来 自 基于 协同 过 滤 的 推荐 系统 ， 什 么 结果 来 自 好 友 
的 推荐 ; 
口 参 试 者 在 实验 室 中 的 行为 可 能 和 他 们 平时 的 真实 行为 不 同 。 
此 外 ， 上 述 实验 结果 仅仅 来 自 对 19 个 用 户 的 调查 , 样本 过 小 。 因 此 ,对 于 上 面 的 结果 不 要 过 
分 解读 ， 还 是 应 该 在 自己 的 系统 中 进行 AB 测 试 ， 得 到 最 为 客观 的 答案 。 
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6.3.5 ”信息 流 推荐 


信息 流 推 荐 是 社会 化 推荐 领域 的 新 兴 话 题 ， 它 主要 针对 Twitter 和 Facebook 这 两 种 社交 网 站 。 
在 这 两 种 社交 网 站 中 ， 每 个 用 户 都 有 一 个 信息 墙 ( 如 图 6-9、 图 6-10 所 示 )， 展 示 了 用 户 好 友 最 近 
的 言论 。 这 个 信息 墙 无 疑 已 经 是 个 性 化 的 , 但 是 里 面 还 是 夹杂 了 很 多 垃圾 信息 。 这 主要 是 因为 我 
们 并 不 关心 我 们 关注 的 好 友 的 所 有 言论 , 而 只 关心 他 们 的 言论 中 和 自己 相关 的 部 分 。 虽然 我 们 在 
选择 关注 时 已 经 考虑 了 关注 对 象 和 自己 兴趣 的 相似 度 , 但 显然 我 们 无 法 找到 和 自己 兴趣 完全 一 致 
的 人 。 因此 , 信息 流 的 个 性 化 推荐 要 解决 的 问题 就 是 如 何 进 一 步 帮 助 用 户 从 信息 墙 上 挑选 有 用 的 


信息 口 




















Networks Deploying Dual-Stack IPv4 and IPv6 Networks: Doing an 
IPv6 implementation project does not involve tea... bitIWADEZXO 


The Network Gang | 人 雪 回 复 饼 转 推 请 收藏 - 打开 


] Papermag.com 
| See what @alexa_chung and @DerekBlasberg reveal as their most 


important #NYFW survival tips bit.ly/zipqE1 


Mounia Lalmas 
Dont underestimate the power of good taste -- wp.me/p1m5A-rT (via 


adamnash) 


papermag.com 1 
When we asked folks @VICE party to say what dog theyd be we had 


no idea they'd look so much alike! bit.ly/xXKOomOp 
pic.twitter.com/djT4JI2d 


Gregory Piatetsky 
Report on New England Victory for #BigData - top presenters at New 


England DB Summit vsb_IVfW6BgV #analytics 


Florent Maurin t 
La nouvelle campagne d'affiches d' #actessud est un jeu 


gamification du quotidien. pic.twitter.com/MnwEYwDC 
ti 转 推 


截取 自 Twitter， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 


图 6-9 ”Twitter 的 用 户 信息 流 
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| | 去 了 4 篇 文章 
@! Apple to reveal btest ipad in March: report 


©@! Xbox 360 Kinect Star Wars game and console finaly given a releas 





©@! Censored Chines 


tist's photos coming to NYC 





©@! Yahoo's New Visualization Beautifuly Shows What's Happening on 





把 和 9999 ; 示 加 到 500 Startups @ SXSW 
2012 
500 Startups @ SXSW 2012 
~ N= 三 Lights 'N Night 相册 
, , 


E 





是 与 其 他 408 个 人 都 觉得 这 拉 壬 的 。 
如 查看 所 有 69 则 评论 


留 段 话 吧 

















截取 自 Facebook， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-10 ”Facebook 的 用 户 信 息 流 


























目前 最 流行 的 信息 流 推 荐 算法 是 Facebook 的 EdgeRank, 该 算法 综合 考虑 了 信息 流 中 每 个 会 话 
的 时 间 、 长 度 与 用 户 兴 趣 的 相似 度 。EdgeRank 算 法 比较 神秘 , 没有 相关 的 论文 ， 不 过 TechCrunch 
曾经 公开 过 它 的 主要 思想 "。Facebook 将 其 他 用 户 对 当前 用 户 信息 流 中 的 会 话 产生 过 行为 的 行为 
称 为 edge， 而 一 条 会 话 的 权重 定义 为 : 





> uw,d, 


其 中 : 

口 u, 指 产生 为 的 用 户 和 当前 用 户 的 相似 度 ， 这 里 的 相似 度 主要 是 在 社交 网 络 图 中 的 熟悉 度 ; 

口 w, 指 行为 的 权重 ， 这 里 的 行为 包括 创建 、 评 论 、like ( 喜欢 )、 打 标签 等 ， 不 同 的 行为 有 
不 同 的 权重 。 
































人 参见 “EdgeRank: The Secret Sauce That Makes Facebook's News Feed Tick”， 地 址 为 http://techcrunch.com/2010/ 
04/22/facebook-edgerank/, 
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口 4, 指 时 间 衰 减 参 数 ， 越 早 的 行为 对 权重 的 影响 越 低 。 

从 上 面 的 描述 中 可 以 得 出 如 下 结论 : 如 果 一 个 会 话 被 你 熟悉 的 好 友 最 近 产 生 过 重要 的 行为 ， 
它 就 会 有 比较 高 的 权重 。 

不 过 , EdgeRank 算 法 的 个 性 化 因素 仅仅 是 好 友 的 熟悉 度 , 它 并 没有 考虑 帖子 内 容 和 用 户 兴 
的 相似 度 。 所 以 EdgeRank 仅 仅 考虑 了 “我 ”周围 用 户 的 社会 化 兴趣 ， 而 没有 重视 “我 ”个 人 的 个 
性 化 兴趣 。 为 此 ，GroupLens 的 研究 人 员 Jilin Chen 深 入 研究 了 信息 流 推荐 中 社会 兴趣 和 个 性 化 兴 
趣 之 间 的 关系 。" 他 们 的 排名 算法 考虑 了 如 下 因素 。 

口 会 话 的 长 度 ” 越 长 的 会 话 包 括 越 多 的 信息 。 

口 话题 相关 性 ”度量 了 会 话 中 主要 话题 和 用 户 兴趣 之 间 的 相关 性 。 这 里 Jilin Chen 用 了 简单 
的 TF-IDF 建 立 用 户 历史 兴趣 的 关键 词 向 量 和 当前 会 话 的 关键 词 向 量 ， 然 后 用 这 两 个 向 量 
的 相似 度 度量 话题 相关 性 。 

口 用 户 熟悉 程度 “主要 度量 了 会 话 中 涉及 的 用 户 〈 比如 会 话 的 创建 者 、 讨 论 者 等 ) 和 当前 

用 户 的 熟悉 程度 。 对 于 如 何 度量 用 户 的 熟悉 程度 下 一 节 将 详细 介绍 。 计 算 熟 悉 度 的 主要 
思想 是 考虑 用 户 之 间 的 共同 好 友 数 等 。 

为 了 验证 算法 的 性 能 ，Jilin Chen 同 样 也 设计 了 一 个 用 户 调查 。 首 先 ,， 他 通过 问卷 将 用 户 分 成 
两 种 类 型 。 第 一 种 类 型 的 用 户 使 用 Twitter 的 目的 是 寻找 信息 ， 也 就 是 说 他 们 将 Twitter 看 做 一 种 信 
息 源 和 新 闻 媒 体 。 而 第 二 种 用 户 使 用 Twitter 的 目的 是 了 解 好 友 的 最 新 动态 以 及 和 好 朋友 聊天 。 然 
后 , 他 让 参 试 者 对 如 下 5 种 算法 的 推荐 结果 给 出 1~5 分 的 评分 , 其 中 1 分 表示 不 喜欢 , 分 表示 最 喜欢 。 
口 Random ”给 用 户 随机 推荐 会 话 。 

口 Length 给 用 户 推 荐 比较 长 的 会 话 。 

口 Topic 给 用 户 推 荐 和 他 兴趣 相关 的 会 话 。 

D Tie 给 用 户 推荐 和 他 熟悉 的 好 友 参 与 的 会 话 。 

口 Topic+Tie 综合 考虑 会 话 和 用 户 的 兴趣 相关 度 以 及 用 户 好 友 参 与 会 话 的 程度 。 

通过 收集 用 户 反 馈 ，Jilin Chen 发 现 ( 如 图 6-11 所 示 )， 对 于 所 有 用 户 不 同 算法 的 平均 得 分 是 : 

Topic+Tie > Tie > Topic > Length > Random 
而 对 于 主要 目的 是 寻找 信息 的 用 户 ,不 同 算法 的 得 分 是 : 

Topic+Tie = Topic > Length > Tie > Random 
对 于 主要 目的 是 交友 的 用 户 ， 不 同 算法 的 得 分 是 : 

Topic+Tie > Tie > Topic > Length > Random 

实验 结果 说 明 , 综合 考虑 用 户 的 社会 兴趣 和 个 人 兴趣 对 于 提高 用 户 满意 度 是 有 帮助 的 。 因 此 ， 

当 我 们 在 一 个 社交 网 站 中 设计 推荐 系统 时 , 可 以 综合 考虑 这 两 个 因素 , 找到 最 合适 的 融合 参数 来 

融合 用 户 的 社会 兴趣 和 个 人 兴趣 ， 从 而 给 用 户 提供 最 令 他 们 满意 的 推荐 结果 。 





























































































































GD 参见 Jilin Chen、Rowan Naim 和 Ed H. Chi 的 “Speak Little and Well: Recommending Conversations in Online Social 
Streams” ( ACM 2011 Article, 2011 )。 
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所 有 用 户 ”寻找 信息 的 用 户 ”交友 的 用 户 
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图 6-11 ”Jilin Chen 的 用 户 调查 实验 结果 ” 


6.4 ”给 用 户 推荐 好 友 


好 友 关 系 是 社会 化 网 站 的 重要 组 成 部 分 , 如 果 用 户 的 好 友 很 稀少 , 就 不 能 体验 到 社会 化 的 好 
处 。 因 此 好 友 推 荐 是 社会 化 网 站 的 重要 应 用 之 一 。 好 友 推 荐 系统 的 目的 是 根据 用 户 现 有 的 好 友 、 
用 户 的 行为 记录 给 用 户 推荐 新 的 好 友 , 从 而 增加 整个 社交 网 络 的 稠密 程度 和 社交 网 站 用 户 的 活跃 
度 。 图 6-12、 图 6-13 和 图 6-14 分 别 展示 了 3 个 著名 社交 网 站 Twitter、LinkedImn 和 Facebook 的 好 友 推 








荐 界面 。 由 此 可 以 说 明 ， 好 友 推 荐 模块 已 经 成 为 社交 网 站 的 标准 配置 之 一 。 
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截取 自 Twitter， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-12 Twitter 的 好 友 推 荐 界面 





中 本 


图 引用 自 Jilin Chen 的 论文 “Recommending Conversations in Online Social Streams”( CHI 2011 )。 
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DO North Central High School 





mm Crevys x 
Student at Katholieke Hogé 

Mechelen Don't show me this person... 
We dee ee ldon't know them 
Office Manager/Marketing 
at Pan American Broadcas | don'tknow them well enough 
Se 办 ee lprefer not to connect 

nimaton Professiona 


Other reason 














截取 自 LinkedIn， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-13 ”LinkedIn 的 好 友 推 荐 界面 








. e— - 
36 mutual friends 41 mutual friends 1 tua nds 


&@ Add Friend @ Add Friend <&@ Add Friend 


43 mutual friends 


< Add Friend &@ Add Friend 










90 mutual friend 
@ Add Friend 





15 mutual friends 110 mutual friends 
@ Add Friend &@ Add Friend 


©@ Add Friend @& Add Friend 


2 


utual friends - 2 mutual friends 
< Add Friend S51 mutual friends © Add Friend 
@ Add Friend 


: 


-一 一 wo~e 





截取 自 Facebook， 图 





好 友 推 荐 算法 在 社交 网 络 上 被 称 为 链接 预测 (link prediction )。 关 于 链接 预测 算法 研究 的 代 
表 文 章 是 Jon Kleinberg 的 “Link Prediction in Social Network”。 该 文 对 各 种 用 户 好 友 关 系 的 预测 方 


中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-14 ”Facebook 的 好 友 推 荐 界面 


法 进行 了 系统 地 研究 和 对 比 。 本 章 我 们 将 介绍 其 中 一 些 比较 直观 和 简单 的 算法 。 





人 参见 Learn more about“People You May Know”， 地 址 为 http://blog.linkedin.com/2008/04/11/learn-more-abou-2/。 
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6.4.1 基于 内 容 的 匹配 


我 们 可 以 给 用 户 推 荐 和 他 们 有 相似 内 容 属性 的 用 户 作 为 好 友 〈 如 图 6-15 所 示 )。 下 面 给 出 了 
常用 的 内 容 属性 。 
口 用 户 人 口 统计 学 属性 ， 包 括 年 龄 、 性 别 、 职 业 、 毕 业 学 校 和 工作 单位 等 。 
口 用 户 的 兴趣 ， 包 括 用 户 喜欢 的 物品 和 发 布 过 的 言论 等 。 
口 用 户 的 位 置信 息 ， 包 括 用 户 的 住址 、IP 地 址 和 邮编 等 。 























特别 推荐 ”相同 标签 ” 同一 学 校 ”同一 公司 。 可 能 在 我 附近 。 人 和 气 热门 


戎 芒 软 件 IBM CRL 


Hulu 招 聘 已 关注 
UIWU 8& 北京 海淀 区 ”粉丝 226 人 











截取 自 新 浪 微 博 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 6-15 “新浪 微 博 利用 用 户 的 学 校 、 公 司 、 位 置 、 标 签 给 用 户 推荐 好 友 


利用 内 容 信息 计算 用 户 的 相似 度 和 我 们 前 面 讨论 的 利用 内 容 信息 计算 物品 的 相似 度 类 似 。 
6.4.2 ”基于 共同 兴趣 的 好 友 推 荐 


在 Twitter 和 微 博 为 代表 的 以 兴趣 图 谱 为 主 的 社交 网 络 中 , 用 户 往往 不 关心 对 于 一 个 人 是 否 在 
现实 社会 中 认识 ， 而 只 关心 是 否 和 他 们 有 共同 的 兴趣 爱好 。 因 此 , 在 这 种 网 站 中 需要 给 用 户 推荐 
和 他 有 共同 兴趣 的 其 他 用 户 作为 好 友 。 

我 们 在 第 3 章 介 绍 基于 用 户 的 协同 过 滤 算 法 ( UserCF ) 时 已 经 详细 介绍 了 如 何 计算 用 户 之 间 
的 兴趣 相似 度 ， 其 主要 思想 就 是 如 果 用 户 喜 欢 相同 的 物品 ， 则 说 明 他 们 具有 相似 的 兴趣 。 在 新 浪 
微 博 中 ， 可 以 将 微 博 看 做 物品 ， 如 果 两 个 用 户 曾 经 评论 或 者 转发 同样 的 微 博 ,说 明 他 们 有 具有 相似 
的 兴趣 。 在 Facebook 中 ， 因 为 有 大 量 用 户 Like (喜欢 ) 的 数据 ， 所 以 更 容易 用 UserCF 算 法 计算 用 
户 的 兴趣 相似 度 。 关 于 这 方面 的 算法 可 以 参考 第 3 章 。 

此 外 ,也 可 以 根据 用 户 在 社交 网 络 中 的 发 言 提 取 用 户 的 兴趣 标签 ,来 计算 用 户 的 兴趣 相似 度 。 
关于 如 何 分 析 用 户 发 言 的 内 容 、 提 取 文 本 的 关键 词 、 计 算 文 本 的 相似 度 ， 可 以 参考 第 4 章 。 


6.4.3 ”基于 社交 网 络 图 的 好 友 推 荐 


在 社交 网 站 中 , 我 们 会 获得 用 户 之 间 现 有 的 社交 网 络 图 , 然后 可 以 基于 现 有 的 社交 网 络 给 用 
户 推 荐 新 的 好 友 ， 比 如 可 以 给 用 户 推 荐 好 友 的 好 友 。 

最 简单 的 好 友 推 荐 算法 是 给 用 户 推荐 好 友 的 好 友 。 在 人 人 网 , 我 们 经 常 可 以 通过 这 个 功能 找 
到 很 多 自己 的 老 同 学 。 在 刚 开 始 用 人 人 网 时 , 我 们 只 能 加 入 有 限 的 好 友 ， 因 为 我 们 记 住 的 好 友 有 
限 。 虽 然 我 们 只 能 记 住 几 个 同学 ,但 那些 同学 又 能 记 住 几 个 不 同 的 同学 , 在 这 种 情况 下 ,我 们 可 
以 通过 朋友 的 朋友 找到 更 多 我 们 认识 的 人 。 




















































































































图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 





162 第 6 章 利用 社交 网 络 数据 











基于 好 友 的 好 友 推 荐 算法 可 以 用 来 给 用 户 推荐 他 们 在 现实 社会 中 互相 熟悉 , 而 在 当前 社交 网 
络 中 没有 联系 的 其 他 用 户 。 下 面 将 介绍 3 种 基于 社交 网 络 的 好 友 推 荐 算法 。 

对 于 用 户 u 和 用 户 v， 我 们 可 以 用 共同 好 友 比 例 计算 他 们 的 相似 度 : 
_ loutG) Nout@y)| 
| lout@)l|out(y)| 





Wout (u, vy) 
下 面 的 代码 实现 了 这 种 相似 度 : 


def FriendSuggestion(user, G, GT): 
suggestions = dict() 
friends = Gluser] 
for fid in Gl[luser]: 
for ffid in GT[fid]: 
if ffid in friends: 
continue 
if ffid not in suggestions: 
suggestions[ffid] = 0 
suggestions[ffid] += 1 
suggestions = {x: y / math.sqrt (len(G[Iuser]) * len(G[x]) 


for x,y in suggestions} 
wa (usv) 公式 中 out(w) 是 在 社交 网 络 图 中 用 户 u 指 向 的 其 他 好 友 的 集合 。 我 们 也 可 以 定义 in(w) 
是 在 社交 网 络 图 中 指向 用 户 u 的 用 户 的 集合 。 在 无 向 社交 网 络 图 中 ，out(w) 和 in(i) 是 相同 的 集合 。 
但 在 微 博 这 种 有 向 社交 网 络 中 ， 这 两 个 集合 就 不 同 了 ， 因 此 也 可 以 通过 in(w) 定 义 另 一 种 相似 度 : 
本 incoming 

iacoling 

















def FriendSuggestion(user, G, GT): 
suggestions = dict() 
for fid in GT[Iuser]: 
for ffid in G[fid] : 
if ffid in friends: 
continue 
if ffid not in suggestions: 
suggestions[ffid] = 0 
suggestions[ffid] += 1 
suggestions = {x: y / math.sqrt (len(GT[user]) * len(GT[x]) for x,y in suggestions} 
这 两 种 相似 度 的 定义 有 着 不 同 的 含义 , 我 们 用 微 博 中 的 关注 来 解释 这 两 种 相似 度 。 如 果 用 户 
u 关 注 了 用 户 v， 那 么 v 就 属于 out(w)， 而 wu 就 属于 in(v)。 因 此 ，w,, (u,v) 越 大 表示 用 户 u 和 v 关 注 的 
用 户 集合 重合 度 越 大 ， 而 w, (w,v) 越 大 表示 关注 用 户 u 和 关注 用 户 v 的 用 户 的 集合 重合 度 越 大 。 
前 面 两 种 相似 度 都 是 对 称 的 ， 也 就 是 wi (u,v) = ww) ，wi (WV)= wi(v,u)。 同 时 ,我们 
还 可 以 定义 第 三 种 有 向 的 相似 度 : 






































lout(W) NinGy) 
lout()| 
这 个 相似 度 的 含义 是 用 户 u 关 注 的 用 户 中 ， 有 多 大 比例 也 关注 了 用 户 v。 但 是 , 这 个 相似 度 有 
一 个 缺点 , 就 是 在 该 相似 度 的 定义 下 所 有 人 都 和 名 人 有 很 大 的 相似 度 。 这 是 因为 这 个 相似 度 在 分 


Woutin (u ? v) 一 
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母 的 部 分 没有 考虑 jin 的 大 小 。 因 此 ， 我 们 可 以 用 如 下 公式 改进 上 面 的 相似 度 : 
|outco)ming@ 
outco)lim@ 


def FriendSuggestion(user, G, GT): 
suggestions = dict() 
for fid in GT[user]: 
for ffid in G[fid]: 
if ffid: 1m friernds: 


continue 
if ffid not in suggestions: 
suggestions[ffid] = 0 


suggestions[ffid] += 1 
suggestions = {x: y / math.sgqrt (len(GT[user]) * len(GT[x]) for x,y in suggestions} 


前 面 讨论 的 这 些 相 似 度 都 是 基于 一 些 简 单 计算 公式 给 出 的 。 这 些 相 似 度 的 计算 无 论 时 间 复 杂 
度 还 是 空间 复杂 度 都 不 是 很 高 ， 非 常 适合 在 线 应 用 使 用 。 

离线 实验 

本 节 和 希望 通过 一 些 离线 实验 评测 本 节 提 出 的 几 种 相似 度 , 评测 哪 种 相似 度 能 更 好 地 预测 用 户 
之 间 的 好 友 关 系 。 互 联网 上 有 很 多 社交 网 络 数据 集 , 其 中 比较 著名 的 是 斯 坦 福 大 学 的 大 规模 网 络 
数据 集 "。 该 数据 集 包 含 很 多 链接 结构 数据 集 ， 包 括 社交 网 络 数据 集 、 互 联网 超级 链接 数据 集 、 
道路 交通 网 络 、 用 户 行为 网 络 、 论 文 引 用 网 络 等 。 这 里 ， 我 们 使 用 该 集合 中 提供 的 Slashdot 社 交 
网 络 数据 集 。 该 数据 集 是 一 个 有 向 图 ， 包 含 82 168 个 顶点 和 948 464 条 边 。 

为 了 测试 不 同好 友 推 荐 算法 的 性 能 ， 本 节 将 数据 集 按照 9:1 分 成 训练 集 和 测试 集 。 然 后 ， 给 
定 用 户 u， 我 们 会 利用 训练 集中 的 社交 网 络 给 用 户 生成 长 度 为 10 的 好 友 推 荐 列表 R(w)， 其 中 R(w) 
中 的 用 户 不 包含 用 户 u 在 训练 集中 的 好 友 。 表 6-1 展 示 了 不 同好 友 推 荐 算法 的 召回 率 和 准确 率 。 


表 6-1 3 种 不 同好 友 推荐 算法 的 召回 率 和 准确 率 







































































Slashdot Epinion 
召回 率 准确 率 召回 率 准确 率 
Ww, 14.09% 3.63% 7.40% 1.87% 
w, 12.32% 3.17% 7.20% 1.82% 
Wo 8.62% 2.22% 11.94% 3.02% 
w 9.12% 2.35% 8.77% 2.21% 








从 表 中 结果 可 以 看 到 , 不 同 数据 集 上 不 同 算法 的 性 能 并 不 相同 。 在 Slashdot 数 据 集 上 w 取得 
了 最 好 的 性 能 ， 而 在 Epinion 数 据 集 上 wwa 取得 了 最 好 的 性 能 。 所 以 ， 在 实际 系统 中 我 们 需要 在 
自己 的 数据 集 上 对 比 不 同 的 算法 ， 找 到 最 适合 自己 数据 集 的 好 友 推 荐 算法 。 








GD 参见 http://snap.stanford.edu/data/。 
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6.4.4 ”基于 用 户 调查 的 好 友 推 荐 算法 对 比 


对 于 前 面 3 节 提 出 的 几 种 不 同 的 好 友 推 荐 算法 ， 上 一 节 提 到 的 GroupLen 的 Jilin Chen 也 进行 了 
研究 。 他 通过 用 户 调查 对 比 了 不 同 算法 的 用 户 满意 度 "， 其 中 算法 ( 这 里 我 们 使 用 了 不 同 的 命名 ) 
如 下 。 

D InterestBased 给 用 户 推荐 和 他 兴趣 相似 的 其 他 用 户 作 为 好 友 。 

口 SocialBased 基于 社交 网 络 给 用 户 推荐 他 好 友 的 好 友 作 为 好 友 。 

口 Interest+Social 将 InterestBased 算 法 推荐 的 好 友和 SocialBased 算 法 推荐 的 好 友 按 照 一 定 

权重 融合 。 

口 SONA SONA 是 IBM 内 部 的 推荐 算法 ， 该 算法 利用 大 量 用户 信 息 建立 了 IBM 员 工 之 间 的 
社交 网 络 。 这 些 信息 包括 所 在 的 部 门 、 共 同 发 表 的 文章 、 共 同 写 的 Wiki、IBM 的 内 部 社交 
网 络 信 息 、 共 同 合作 的 专利 等 。 

然后 ，Jilin Chen 在 IBM 数 据 的 基础 上 用 上 述 算法 建立 4 种 不 同 的 好 友 推 荐 系统 ， 然 后 给 每 个 
参加 测试 的 用 户 提供 12 个 推荐 结果 ， 其 中 每 个 算法 提供 了 3 个 推荐 结果 。 也 就 是 说 ， 参 试 者 并 不 
知道 每 个 结果 来 自 哪个 算法 。 然 后 ，Jilin Cheni 上 参 试 者 对 每 个 推荐 结果 回答 以 下 4 个 问题 。 

口 你 是 否认 识 这 个 人 ? 

口 你 是 否 觉 得 这 是 一 个 好 的 推荐 结果 ? 

口 你 是 否 觉得 推荐 理由 能 够 帮助 你 决策 ? 

口 看 到 这 个 推荐 结果 后 你 决定 进行 以 下 哪 种 行为 ( 单 选 ): 

和 主动 和 这 个 人 交 朋 友 ; 
ma 希望 别人 能 够 向 这 个 人 介绍 自己 ; 
m 什么 也 不 干 。 
调查 结果 如 表 6-2 所 示 。 首 先 ， 从 结果 可 以 发 现 ， 对 推荐 结果 的 新 颖 性 不 同 算法 的 排名 如 下 : 


InterestBased > Interest+Social > SocialBased > SONA 


























































































































表 6-2 不 同好 友 推荐 算法 的 问卷 调查 结果 ” 














认 识 不 认 识 
好 不 好 好 不 好 
InterestBased 19.5% 3.0% 30.1% 41.5% 
SocialBased 55.4% 5.2% 23.8% 15.5% 
Interest+Social 31.8% 4.4% 24.9% 38.9% 
SONA 75.9% 10.0% 6.6% 7.6% 








SONA 因 为 用 到 了 部 门 信息 、 共 同 写 论文 和 发 表 专 利 的 信息 ， 所 以 推荐 的 好 友 大 部 分 都 是 用 











人 参见 Jilin Chen、Werner Geyer、Casey Dugan Michael Muller、Ido Guy 的 ““Make New Friends, but Keep the Old 
Recommending People on Social Networking Site” ( CHI 2009 )。 
@ 此 表 引 用 自 Jilin Chen 的 论文 。 
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户 认识 的 ， 因 此 新 颖 度 不 高 。 

其 次 , 结果 表明 如 果 用 户 认识 推荐 结果 中 的 人 , 那么 绝 大 部 分 用 户 都 会 觉得 这 是 一 个 好 的 推 
荐 结果 ， 而 如 果 用 户 不 认识 推荐 结果 中 的 人 ， 绝 大 多 数 人 都 觉得 推荐 结果 不 好 。 

从 用 户 认为 推荐 结果 是 否 好 的 比例 看 ， 不 同 算法 的 排名 如 下 : 

SONA > SocialBased > Interest+Social > InterestBased 


SONA 排 名 不 高 是 因为 它 综 合 了 更 多 的 信息 。 


6.5 扩展 阅读 


社交 网 络 分 析 的 研究 已 经 有 很 悠久 的 历史 了 。 其 中 关于 社交 网 络 最 让 人 耳熟能详 的 结论 就 是 
六 度 原 理 。 六 度 原 理 讲 的 是 社会 中 任意 两 个 人 都 可 以 通过 不 超过 6 个 人 的 路 径 相互 认 识 ， 如 果 转 
化 为 图 的 术语 ， 就 是 社交 网 络 图 的 直径 为 6。 不 过 喜欢 侧根 问 底 的 读者 一 定好 奇 六 度 原理 的 正确 
性 。 六 度 原理 在 均匀 随机 图 上 已 经 得 到 了 完美 证 明 ， 对 此 感 兴趣 的 读者 可 以 参考 Random Graph 
一 书 。 很 多 对 社交 网 络 的 研究 都 是 基于 随机 图 理论 的 , 因此 深入 研究 社交 网 络 必须 掌握 随机 图 理 
论 的 相关 知识 。 

社交 网 络 研 究 中 有 两 个 最 车 名 的 问题 。 第 一 个 是 如 何 度量 人 的 重要 性 , 也 就 是 社交 网 络 顶 点 
的 中 心 度 (centrality )， 第 二 个 问题 是 如 何 度量 社交 网 络 中 人 和 人 之 间 的 关系 ， 也 就 是 链接 预测 。 
这 两 个 问题 的 研究 都 有 着 深刻 的 实际 意义 , 因此 得 到 了 业界 和 学 术 界 的 广泛 关注 。 对 这 两 个 问题 
感 兴趣 的 读者 可 以 参考 社交 网 络 分 析 方 面 的 书 "。 

对 于 基于 社交 网 络 的 推荐 算法 , 因为 数据 集 的 限制 , 最 早 的 研究 都 是 基于 Epinion 的 用 户 信任 
网 络 的 。Ma Hao 在 Epinion 数 据 集 上 提出 了 很 多 基于 和 矩阵 分 解 的 社会 化 推荐 算法 用 来 解决 评分 预 
测 问题 >*>， 其 主要 思想 是 在 矩阵 分 解 模 型 中 加 入 正则 化 项 ， 让 具有 社交 关系 的 用 户 的 隐语 义 向 量 
具有 比较 高 的 相似 度 。 

ACM 推 荐 系统 大 会 在 2010 年 曾经 举办 过 一 个 社会 化 推荐 比赛 ”, 该 比赛 将 社交 网 络 看 做 一 种 
上 下 文 , 希望 参赛 者 能 够 利用 社交 网 络 信息 提高 推荐 系统 的 性 能 。 关注 社交 化 推荐 的 读者 可 以 关 
注 一 下 该 比赛 最 后 发 出 的 论文 集 。 




























































































Q@ 比如 (Social Network Analysis: Methods and Applications ) 和 ( Social Network Analysis: A Handbook )。 

@ 参见 Hao Ma、 Haixuan Yang、Michael R. Lyu 和 Irwin King 的 “SoRec: Social Recommendation Using Probabilistic Matrix 
Factorization” ( ACM 2008 Article , 2008 )。 

@ 即 CAMRa201: Challenge on Context-aware Movie Recommendation 。 
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推荐 系统 实例 


前 面 几 章 介绍 了 各 种 各 样 的 数据 和 基于 这 些 数据 的 推荐 算法 。 在 实际 系统 中 , 前 面 几 音 提 到 
的 数据 大 都 存在 , 因此 如 何 设计 一 个 真实 的 推荐 系统 处 理 不 同 的 数据 , 根据 不 同 的 数据 设计 算法 ， 
并 将 这 些 算 法 融合 到 一 个 系统 当中 是 本 章 讨论 的 主要 问题 。 本 章 将 首先 介绍 推荐 系统 的 外 围 架 
构 ， 然 后 介绍 推荐 系统 的 架构 ， 并 对 架构 中 每 个 模块 的 设计 进行 深入 讨论 。 

















7.1 外 围 架构 

这 一 节 主 要 讨论 推荐 系统 是 如 何 和 网 站 的 其 他 系统 接口 的 。 图 7-1 表 示 了 推荐 系统 和 网 站 其 
他 系统 的 关系 。 一 般 来 说 , 每 个 网 站 都 会 有 一 个 UI 系 统 ，UI 系 统 负责 给 用 户 展示 网 页 并 和 用 户 交 
互 。 网 站 会 通过 日 志 系统 将 用 户 在 UI 上 的 各 种 各 样 的 行为 记录 到 用 户 行为 日 志 中 。 日 志 可 能 存储 
在 内 存 缓存 里 ,也 可 能 存储 在 数据 库 中 ,也 可 能 存储 在 文件 系统 中 。 而 推荐 系统 通过 分 析 用 户 的 
行为 日 志 ,， 给 用 户 生 成 推荐 列表 ， 最 终 展示 到 网 站 的 界面 上 。 


推荐 系统 UI 
用 户 
区 


日 志 系统 上 



























































图 7-1 ”推荐 系统 和 其 他 系统 之 间 的 关系 


从 上 面 的 结构 可 以 看 到 ,推荐 系统 要 发 挥 强大 的 作用 , 除了 推荐 系统 本 身 , 主要 还 依赖 于 两 
个 条 件 一 一 界面 展示 和 用 户 行为 数据 。 关 于 如 何 设 计 推荐 系统 的 界面 ， 笔 者 没有 太 多 的 发 言 权 。 
不 过 ， 如 有 果 我 们 看 看 目前 流行 的 推荐 系统 界面 ， 可 以 看 到 这 些 界 面 都 有 一 些 共性 。 
口 通过 一 定 方式 展示 物品 ， 主 要 包括 物品 的 标题 、 缩 略图 和 介绍 等 。 
口 很 多 推荐 界面 都 提供 了 推荐 理由 ， 理 由 可 以 增加 用 户 对 推荐 结果 的 信任 度 。 
口 推荐 界面 还 需要 提供 一 些 按钮 让 用 户 对 推荐 结果 进行 反馈 ， 这 样 才能 让 推荐 算法 不 断 改 
善 用 户 的 个 性 化 推荐 体验 。 
在 设计 推荐 界面 时 ， 我 们 可 以 综合 考虑 其 他 网 站 的 设计 并 结合 自己 网 站 的 特点 。 
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下 面 着 重 讨论 如 何 收集 和 存储 用 户 数据 。 


数据 收集 和 存储 


个 性 化 推荐 算法 依赖 于 用 户 行为 数据 , 而 在 任何 一 个 网 站 中 都 存在 着 各 种 各 样 的 用 户 行为 数 
据 。 那 么 如 何 存 取 这 些 数 据 就 是 推荐 系统 需要 解决 的 首要 问题 。 表 7-1 展 示 了 一 个 假想 的 电子 商 
务 网 站 上 的 典型 用 户 行为 数据 。 如 表 所 示 ,， 从 产生 行为 的 用 户 角度 看 ,有 些 行为 是 只 有 注册 用 户 
才能 产生 的 ， 而 有 些 行为 是 所 有 用 户 都 可 以 产生 的 。 从 规模 上 看 , 浏览 网 页 、 搜 索 记 录 的 规模 都 
很 大 ， 因 为 这 种 行为 所 有 用 户 都 能 产生 ， 而 且 平均 每 个 用 户 都 会 产生 很 多 这 些 行 为 。 购 买 、 收 茂 
行为 规模 中 等 ， 因 为 只 有 注册 用 户 才能 产生 这 种 行为 , 但 购买 行为 又 是 电 商 网 站 的 主要 行为 , 所 
以 它们 相对 于 评论 来 说 规模 更 大 , 但 相对 于 网 页 浏览 行为 来 说 规模 要 小 得 多 , 最 后 剩 下 的 行为 是 
注册 用 户 里 的 一 小 部 分 人 才 有 的 ， 所 以 规模 不 会 很 大 。 从 实时 存 取 的 角度 上 看 ， 购买、 收藏 、 评 
论 、 评 分 、 分 享 等 行为 都 是 需要 实时 存 取 的 ， 因 为 只 要 用 户 有 了 这 些 行为 ， 界面 上 就 需要 体现 出 
来 , 比如 用 户 购 买 了 商品 后 , 用 户 的 个 人 购买 列表 中 就 应 立即 显示 用 户 购 买 的 商品 。 而 有 些 行为 ， 
比如 浏览 网 页 的 行为 和 搜索 行为 并 不 需要 实时 存 取 。 


表 7-1 电子 商务 网 站 中 的 典型 行为 











































































































行 ” 为 用 户 类 型 规模 实时 存 取 
浏览 网 页 注册 /匿名 大 x 
将 商品 加 入 购物 车 注 中 V 
购买 商品 注 中 Vv 
收藏 商品 注 中 V 
评论 商品 小 V 
给 商品 评分 注 小 Vv 
搜索 商品 注册 /匿名 大 x 
点 击 搜索 结果 注册 /匿名 大 x 
分 享 商品 注册 小 V 




















按照 前 面 数据 的 规模 和 是 否 需 要 实时 存 取 , 不 同 的 行为 数据 将 被 存储 在 不 同 的 媒介 中 。 一 般 
来 说 , 需要 实时 存 取 的 数据 存储 在 数据 库 和 缓存 中 ,而 大 规模 的 非 实时 地 存 取 数 据 存储 在 分 布 式 
文件 系统 (如 HDFS ) 中 。 

数据 能 否 实时 存 取 在 推荐 系统 中 非常 重要 , 因为 推荐 系统 的 实时 性 主要 依赖 于 能 和 否 实时 拿 到 
用 户 的 新 行为 。 只 有 快速 拿 到 大 量 用 户 的 新 行为 ， 推 荐 系统 才能 够 实时 地 适应 用 户 当前 的 需求 ， 
给 用 户 进 行 实时 推荐 。 


7.2 推荐 系统 架构 
前 面 提 到 推荐 系统 是 联系 用 户 和 物品 的 媒介 ， 而 推荐 系统 联系 用 户 和 物品 的 方式 主要 有 3 种 
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( 如 图 7-2 所 示 )。 如 果 将 这 3 种 方式 都 抽象 一 下 就 可 以 发 现 ， 如 果 认 为 用 户 喜 欢 的 物品 也 是 一 种 用 
户 特征 ,或 者 和 用 户 兴 趣 相似 的 其 他 用 户 也 是 一 种 用 户 特征 ,那么 用 户 就 和 物品 通过 特征 相 联系 。 











相似 


物品 





用 户 











特征 





图 7-2 3 种 联系 用 户 和 物品 的 推荐 系统 

















根据 上 面 的 抽象 ， 可 以 设计 一 种 基于 特征 的 推荐 系统 架构 。 如 图 7-3 所 示 ， 当 用 户 到 来 之 后 ， 


推荐 系统 需要 为 用 户 生成 特 生 





EE, 然后 对 每 个 特征 找到 和 特征 相关 的 物品 ,从 而 最 终生 成 用 户 的 推 


荐 列表 。 因 而 ,推荐 系统 的 核心 任务 就 被 拆 解 成 两 部 分 , 一 个 是 如 何 为 给 定 用 户 生成 特征 ， 男 一 


个 是 如 何 根据 特征 找到 物品 。 
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图 7-3 ”基于 特征 的 推荐 系统 架构 








用 户 的 特征 种 类 非常 多 ， 主 要 包括 如 下 几 类 。 


口 人 口 统计 学 特征 包括 用 户 的 年 龄 、 性 别 、 国 籍 和 民族 等 用 户 在 注册 时 提供 








的 信息 。 
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口 用 户 的 行为 特征 包括 用 户 浏览 过 什么 物品 、 收 藏 过 什么 物品 、 给 什么 物品 打 过 什么 样 
的 分 数 等 用 户 行为 相关 的 特征 。 同 时 ， 用 户 行为 从 时 间 上 也 可 以 分 为 用 户 近 期 的 行为 和 
长 期 的 行为 。 

口 用 户 的 话题 特征 ”可 以 根据 用 户 的 历史 行为 利用 话题 模型 (topic model ) 将 电视 剧 和 电 
影 聚 合成 不 同 的 话题 ， 并 且 计 算出 每 个 用 户 对 什么 话题 感 兴趣 。 比 如 用 户 如 果 看 了 《 叶 
问 祥 《新 龙门 客栈 》 和 《 醇 拳 》》 那么 可 以 认为 用 户 对 “香港 武侠 电影 ”这 个 话题 感 兴趣 。 

推荐 系统 的 推荐 任务 也 有 很 多 种 ， 如 下 所 示 。 

口 将 最 新 加 入 的 物品 推荐 给 用 户 。 

口 将 商业 上 需要 宣传 的 物品 推荐 给 用 户 。 

口 给 用 户 推荐 不 同 种 类 的 物品 ， 比 如 亚马逊 会 推荐 图 书 、 音 像 、 电 子 产 品 和 服装 等 〈 如 图 
7-4 所 示 )。 























Related to ltems You've Viewed 
You viewed Customers who viewed this also viewed 


田 目 目 





Apple iPhone 4 Black Apple iPhone 4 16GB Apple iPhone 45 16GB Apple iPhone 45 16GB - Toshiba Portege R835-P81 
Smartphone 32GB Smartphone Black (White) AT&T - Black 13.3-Inch... 
$569.00 iPhone $649.95 $539.00 $899:99 $749.88 


$699.99 $529.00 


> View or edit your browsing history 





Recommendations for You in Books 


DOK INSIDE! LOOK INSIDE! 








ba 


Data Mining: Practical Pattern Recognition and Machine Learning: An Speech and Language Data Mining: Concepts and 


Machine... Machine Learning Algorithmic... Processing Techniques... 

Ian H. Witten, Eibe Frank, Christopher M. Bishop > Stephen Marsland Daniel Jurafsky, James H. Jiawei Han, Micheline 
Mark A. Hall Hardcover Hardcover Martin Kamber, Jian Pei 
Paperback $94.95 $60.56 $72.95 $59.28 Hardcover Hardcover 

$69-95 $38.49 Fix this recommendation Fix this recommendation $49-68 $110.26 4-95 $48.99 

Fix this recommendation Fix this recommendation Fix this recommendation 

















> See more recommendations 
截取 自 亚 马 进 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 7-4 ”亚马逊 同时 给 用 户 推荐 电子 产品 和 图 书 


口 给 用 户 混合 推荐 有 时 需要 将 图 书 和 音像 制品 放 到 一 个 推荐 列表 中 展示 给 用 户 ( 如 图 7-5 
所 示 )。 

口 对 于 不 同 的 产品 推荐 不 同 新 颖 度 的 物品 。 比 如 在 首页 给 用 户 展示 比较 热门 的 推荐 结果 ， 
在 推荐 系统 页 面 给 用 户 展示 长 尾 中 的 物品 ( 如 图 7-6 所 示 )。 

口 考虑 到 用 户 访问 推荐 系统 的 上 下 文 ， 比 如 当 你 在 豆瓣 音乐 找到 “李宗盛 ”时 ， 右 侧 会 有 
一 个 链接 告诉 你 可 以 在 豆 辩 电台 收听 “李宗盛 "。 单 击 了 这 个 链接 后 ， 豆 辩 电 台 给 你 推荐 
的 音乐 就 考虑 了 “李宗盛 ”这 个 上 下 文 ( 如 图 7-7 所 示 )。 














图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


170 第 7 章 推荐 系统 实例 








Popular Among Your Friends on Facebook 


LOOK INSIDE! 














The Beatles 1 ~ The Gone with the Wind, Inception (Two-Disc The Dark Side Of The 
Beatles 75th An... by Margaret Ed... Blu-ray ~ Moon - Immersi... ~ 
Mitchell Leonardo DIC... Pink Floyd 


ae Sg 195) 532.49 。” 友信 娘娘 上 (370) $510.98 让 让 太 丰 六 (970) 5$12.99 交友 太太 六 (107) $79.24 
4 friends like this like this 


中 下 加 ”如 两 逢 。” 放 志 大王 面 同 


> See more > See more > See more > See more 
截取 自 亚马逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 7-5 亚马逊 的 社会 化 推荐 结果 中 包含 了 各 种 物品 
































New For You® 


LOOK INSIDE! LOOK INSIDE! 
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KZ 





LARNRY 

GONICK 
MongoDB in Action The Cartoon Guide to 
(Paperback) by Kyle Banker Calculus (C... (Paperback) by 
女友 女友 六 (3) $29.69 Larry Gonick 
Fix this recommendation 故 帮 让 皮 六 (3) $12.39 


Fix this recommendation 














截取 自 亚 马 逊 网 站 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 7-6 “亚马逊 给 用 户 推荐 最 新 加 入 的 物品 














李宗盛 Jonathan 


出 生日 期 : 1958-07-19 

国家 / 遇 区 :台湾 

厂 牌 :滚石 唱片 

流派 :流行 

风格 : 流行 /民谣 

官方 网 站 : http://blog.sina.com.cn/lizongsheng 











豆 座 FM 正在 播放 李宗盛 ] 
© doubanfm/?Context=channel:0lmusician_id:104294 
截取 自 豆 汶 ， 图 中 相关 内 容 的 著作 权 归 原著 作 权 人 所 有 
图 7-7 豆瓣 电台 考虑 用 户 来 源 的 上 下 文 (该 页 面 地 址 链接 中 加 入 了 context 参 数 ) 
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如 果 要 在 一 个 系统 中 把 上 面 提 到 的 各 种 特征 和 任务 都 统筹 考虑 , 那么 系统 将 会 非常 复杂 ， 而 
且 很 难 通过 配置 文件 方便 地 配置 不 同 特征 和 任务 的 权重 。 因 此 , 推荐 系统 需要 由 多 个 推荐 引擎 组 
成 , 每 个 推荐 引擎 负责 一 类 特征 和 一 种 任务 , 而 推荐 系统 的 任务 只 是 将 推荐 引擎 的 结果 按照 一 定 
权重 或 者 优先 级 合并 、 排 序 然后 返回 ( 如 图 7-8 所 示 )。 


") | 初始 推荐 结果 


图 7-8 ”推荐 系统 的 架构 图 






































这 样 做 还 有 两 个 好 处 。 

口 可 以 方便 地 增加 /删除 引擎 ， 控 制 不 同 引 擎 对 推荐 结果 的 影响 。 对 于 绝 大 多 数 需求 ， 只 需 

要 通过 不 同 的 引擎 组 合 实现 。 

口 可 以 实现 推荐 引擎 级 别 的 用 户 反馈 。 每 一 个 推荐 引擎 其 实 代 表 了 一 种 推荐 策略 ， 而 不 同 
的 用 户 可 能 喜欢 不 同 的 推荐 策略 。 有 些 用 户 可 能 喜欢 利用 他 的 年 龄 性 别 作出 的 推荐 ， 有 
些 用 户 可 能 比较 喜欢 看 到 新 加 入 的 和 他 兴趣 相关 的 视频 ， 有 些 用 户 喜 欢 比 较 新 颖 的 推荐 ， 
有 些 用 户 喜 欢 专注 于 一 个 邻 域 的 推荐 ， 有 些 用 户 喜 欢 多 样 的 推荐 。 我 们 可 以 将 每 一 种 策 
略 都 设计 成 一 个 推荐 引 警 ， 然 后 通过 分 析 用 户 对 推荐 结果 的 反馈 了 解 用 户 比较 喜欢 哪些 
引擎 推荐 出 来 的 结果 ， 从 而 对 不 同 的 用 户 给 出 不 同 的 引擎 组 合 权重 。 

将 推荐 系统 拆 分 成 不 同 推荐 引 警 后， 如 何 设计 一 个 推荐 引擎 变 成 了 推荐 系统 设计 的 核心 部 

分 。 下 一 节 将 讨论 推荐 引擎 的 设计 方法 。 


7.3 推荐 引擎 的 架构 


上 一 节 提 到 , 推荐 引 警 使 用 一 种 或 几 种 用 户 特征 ,按照 一 种 推荐 策略 生成 一 种 类 型 物品 的 推 
荐 列表 。 图 7-9 展 示 了 每 个 具体 推荐 引擎 的 架构 。 
如 图 7-9 所 示 ， 推 荐 引擎 架构 主要 包括 3 部 分 。 
口 该 部 分 负责 从 数据 库 或 者 缓存 中 拿 到 用 户 行为 数据 ， 通 过 分 析 不 同行 为 ， 生 成 当前 用 户 
的 特征 向 量 。 不 过 如 果 是 使 用 非 行为 特征 ， 就 不 需要 使 用 行为 提取 和 分 析 模 块 了 。 该 模 
块 的 输出 是 用 户 特征 向 量 。 
口 该 部 分 负责 将 用 户 的 特征 向 量 通过 特征 -物品 相关 和 矩阵 转化 为 初始 推荐 物品 列表 。 
口 该 部 分 负责 对 初始 的 推荐 列表 进行 过 滤 、 排 名 等 处 理 ， 从 而 生成 最 终 的 推荐 结果 。 
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图 7-9 ”推荐 引擎 的 架构 图 
下 面 一 节 将 对 各 个 不 同 的 部 分 分 别 详 细 解 释 。 


7.3.1 生成 用 户 特 征 向 量 


一 般 来 说 , 用 户 的 特征 包括 两 种 ,一 种 是 用 户 的 注册 信息 中 可 以 提取 出 来 的 ， 主 要 包括 用 户 
的 人 口 统计 学 特征 。 对 于 使 用 这 种 特征 的 推荐 引擎 ， 如 果 内 存 够 ,可 以 将 存储 这 些 特征 的 信息 直 
接 缓存 在 内 存 中 ,在 推荐 时 直接 拿 到 用 户 的 特征 数据 并 生成 特征 向 量 。 除了 这 种 特征 , 另 一 种 特 
征 主 要 是 从 用 户 的 行为 中 计算 出 来 的 ， 本 节 着 重 讨论 如 何 生成 特征 。 
一 个 特征 向 量 由 特征 以 及 特征 的 权重 组 成 ， 在 利用 用 户 行为 计算 特征 向 量 时 需要 考虑 以 下 
因素 。 
口 用 户 行为 的 种 类 ”在 一 个 网 站 中 ， 用 户 可 以 对 物品 产生 很 多 不 同 种 类 的 行为 。 用 户 可 以 
浏览 物品 、 单 击 物品 的 链接 、 收 藏 物品 、 给 物品 打分 、 购 买 物品 、 评 论 物 品 、 给 物品 打 
上 不 同 的 标签 、 和 好 友 分 享 物品 、 搜 索 不 同 的 关键 词 等 。 这 些 行为 都 会 对 物品 特征 的 权 
重 产生 影响 ， 但 不 同行 为 的 影响 不 同 ， 大 多 时 候 很 难 确 定 什么 行为 更 加 重要 ， 一 般 的 标 
准 就 是 用 户 付出 代价 越 大 的 行为 权重 越 高 。 比 如 ， 购 买 物品 需要 用 户 掏 钱 ， 所 以 用 户 一 
定 会 三 思 而 后 行 ， 因 此 购买 行为 最 为 重要 。 相 反 ， 浏 览 物 品 的 网 页 代价 很 小 ， 所 以 这 种 
行为 对 反映 用 户 的 真实 兴趣 的 影响 很 小 。 
口 用 户 行为 产生 的 时 间 “一般 来 说 ， 用 户 近 期 的 行为 比较 重要 ， 而 用 户 很 久之 前 的 行为 相 
对 比较 次 要 。 因 此 ， 如 果 用 户 最 近 购 买 过 某 一 个 物品 ， 那 么 这 个 物品 对 应 的 特征 将 会 具 
有 比较 高 的 权重 。 
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口 用 户 行为 的 次 数 有 时 用 户 对 一 个 物品 会 产生 很 多 次 行为 。 比 如 用 户 会 听 一 首 歌 很 多 次 ， 
看 一 部 电视 剧 的 很 多 集 等 。 因 此 用 户 对 同一 个 物品 的 同一 种 行为 发 生 的 次 数 也 反映 了 用 
户 对 物品 的 兴趣 ， 行 为 次 数 多 的 物品 对 应 的 特征 权重 越 高 。 

口 物品 的 热门 程度 ”如果 用 户 对 一 个 很 热门 的 物品 产生 了 行为 ， 往 往 不 能 代表 用 户 的 个 性 ， 
因为 用 户 可 能 是 在 跟风 ， 可 能 对 该 物品 并 没有 太 大 兴趣 ， 特 别 是 在 用 户 对 一 个 热门 物品 
产生 了 偶尔 儿 次 不 重要 的 行为 比如 浏览 行为 ) 时 ， 就 更 说 明 用 户 对 这 个 物品 可 能 没有 
什么 兴趣 ， 可 能 只 是 因为 这 个 物品 的 链接 到 处 都 是 ， 很 容易 点 到 而 已 。 反 之 ， 如 果 用 户 
对 一 个 不 热门 的 物品 产生 了 行为 ， 就 说 明了 用 户 的 个 性 需求 。 因 此 ， 推 荐 引擎 在 生成 用 
户 特征 时 会 加 重 不 热门 物品 对 应 的 特征 的 权重 。 


7.3.2 ”特征 -物品 相关 推荐 


在 得 到 用 户 的 特征 向 量 后 , 我 们 可 以 根据 离线 的 相关 表 得 到 初始 的 物品 推荐 列表 。 离 线 相 关 
表 可 以 存储 在 MySQL 中 ， 其 存储 格式 如 表 7-2 所 示 。 
表 7-2 ”离线 相关 表 在 MySQL 中 的 存储 格式 


Src_id dst_id weight 
特征 ID 物品 ID 权重 






























































对 于 每 个 特征 ， 我 们 可 以 在 相关 表 中 存储 和 它 最 相关 的 N 个 物品 的 ID。 

在 线 使 用 的 特征 一 物品 相关 表 一 般 都 不 止 一 张 。 以 论文 之 间 的 相关 表 为 例 ， 计算 论 文 之 间 的 
相关 性 既 可 以 使 用 第 3 章 提 出 的 协同 过 渡 算 法 ( 即 如 果 两 篇 论文 的 读者 重合 度 很 大 说 明 两 部 电视 
剧 相似 ), 也 可 以 通过 内 容 计算 ( 比如 有 相同 的 作者 、 关 键 词 、 相 似 的 标题 等 )。 即 使 是 协同 过 滤 ， 
也 可 以 根据 不 同 的 用 户 行为 数据 得 到 不 同 的 相关 表 。 比如 可 以 根据 用 户 的 打分 行为 计算 论文 之 间 
的 相关 性 , 也 可 以 根据 用 户 的 浏览 行为 计算 论文 之 间 的 相关 性 。 总 之 , 对 于 一 个 推荐 引擎 可 以 在 
配置 文件 中 配置 很 多 相关 表 以 及 它们 的 权重 , 而 在 线 服务 在 启动 时 会 将 这 些 相 关 表 按照 配置 的 权 
重 相 加 ,然后 将 最 终 的 相关 表 保 存在 内 存 中 ， 而 在 给 用 户 进行 推荐 时 ,用 的 已 经 是 加 权 后 的 相关 
表 了 。 

从 上 面 的 架构 图 可 以 看 到 ， 特 征 -物品 相关 推荐 模块 还 可 以 接受 一 个 候选 物品 集合 。 候 选 物 
品 集合 的 目的 是 保证 推荐 结果 只 包含 候选 物品 集合 中 的 物品 。 它 的 应 用 场合 一 般 是 产品 需求 希望 
将 某 些 类 型 的 电视 剧 推荐 给 用 户 。 比 如 有 些 产品 要 求 给 用 户 推荐 最 近 一 周 加 入 的 新 物品 , 那么 候 
选 物品 集合 就 包括 最 近 一 周 新 加 的 物品 。 

也 许 有 读者 会 奇怪 ,为 什么 不 在 过 滤 模 块 中 将 候选 集合 外 的 电视 剧 过 滤 掉 ， 而 要 在 相关 推荐 
模块 中 处 理 候选 物品 列表 ? 这 里 举 一 个 简单 的 例子 说 明 原因 。 首 先 , 一 般 来 说 对 于 协同 过 滤 算 法 
计算 出 的 相关 表 , 每 个 物品 都 会 倾向 于 和 比较 热门 的 物品 具有 较 高 的 相似 度 。 那 么 假设 用 户 购买 
过 物品 A， 候 选 列表 中 包含 了 物品 B，A 和 B 相 关 ， 但 A 比 B 热 门 。 那 么 ， 一 般 情 况 下 ，B 在 A 的 相 
关 物 品 列表 中 会 排 在 靠 后 的 位 置 (假设 排 在 第 10 名 ), 而 A 在 B 的 相关 物品 列表 中 会 排 在 靠 前 的 位 
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置 (假设 排 在 第 1 名 )。 那么 ， 如 果 推 荐 算法 是 给 用 户 推荐 和 A 最 相关 的 5 部 电视 剧 ， 那 么 B 就 不 会 
出 现在 用 户 的 推荐 列表 中 。 但 是 , 如 果 算 法 在 给 定 候 选 列表 时 会 用 一 种 不 同 的 方式 进行 推荐 ， 比 
如 如 果 用 户 看 过 和 B 最 相关 的 5 部 电视 剧 中 的 某 一 部 ， 就 将 B 推 荐 给 用 户 ， 那 么 这 种 情况 下 B 就 出 
现在 推荐 列表 中 了 。 

一 般 来 说 ， 如 果 需 要 在 一 个 小 的 候选 物品 集合 中 给 用 户 推荐 物品 ， 那 么 可 以 考虑 上 述 方法 。 
但 如 果 是 要 在 一 个 很 大 的 候选 物品 集合 中 给 用 户 推荐 物品 , 那么 可 以 考虑 直接 在 初始 推荐 列表 中 
过 滤 掉 不 在 候选 物品 集合 中 物品 的 方法 。 

特征 -物品 相关 推荐 模块 除了 给 用 户 返 回 物品 推荐 列表 ， 还 需要 给 推荐 列表 中 的 每 个 推荐 结 
果 产 生 一 个 解释 列表 , 表明 这 个 物品 是 因为 哪些 特征 推荐 出 来 的 。 下 面 的 代码 给 出 了 相关 推荐 模 
块 的 大 体 工 作 流 程 。 


def RecommendationCore (features, related table): 
net = Qiet() 
for fid, fweight in features.items!() 
for item, sim in related table[fid].items(): 
ret[item] .weight += sim * fweight 
ret[item] .reason[fid] = sim * fweight 
return ret 















































7.3.3 ”过 滤 模 块 


在 得 到 初步 的 推荐 列表 后 , 还 不 能 把 这 个 列表 展现 给 用 户 , 首先 需要 按照 产品 需求 对 结果 进 
行 过 滤 ， 过 滤 掉 那些 不 符合 要 求 的 物品 。 一 般 来 说 ， 过 滤 模 块 会 过 滤 掉 以 下 物品 。 
口 用 户 已 经 产生 过 行为 物品 ”因为 推荐 系统 的 目的 是 帮助 用 户 发 现 物品 ， 因 此 没 必要 给 用 
户 推荐 他 已 经 知道 的 物品 ， 这 样 可 以 保证 推荐 结果 的 新 颖 性 。 
口 候选 物品 以 外 的 物品 ”候选 物品 集合 一 般 有 两 个 来 源 ， 一 个 是 产品 需求 。 比 如 在 首页 可 
能 要 求 将 新 加 入 的 物品 推荐 给 用 户 ， 因 此 需要 在 过 滤 模 块 中 过 滤 掉 不 满足 这 一 条 件 的 物 
品 。 男 一 个 来 源 是 用 户 自己 的 选择 ， 比 如 用 户 选 择 了 茶 一 个 价格 区 间 ， 只 希望 看 到 这 个 
价格 区 间 内 的 物品 ， 那 么 过 滤 模 块 需要 过 滤 掉 不 满足 用 户 需 求 的 物品 。 
口 某 些 质量 很 差 的 物品 ”为 了 提高 用 户 的 体验 ， 推 荐 系统 需要 给 用 户 推荐 质量 好 的 物品 ， 
那么 对 于 一 些 绝 大 多 数 用 户 评论 都 很 差 的 物品 ， 推 荐 系统 需要 过 滤 掉 。 这 种 过 滤 一 般 以 
用 户 的 历史 评分 为 依据 ， 比 如 过 滤 掉 平均 分 在 2 分 以 下 的 物品 。 


7.3.4 排名 模块 


经 过 过 滤 后 的 推荐 结果 直接 展示 给 用 户 一 般 也 没有 问题 , 但 如 果 对 它们 进行 一 些 排名 , 则 可 
以 更 好 地 提升 用 户 满意 度 , 一 般 排 名 模块 需要 包括 很 多 不 同 的 子 模块 ,下 面 将 对 不 同 的 模块 分 别 
加 以 介绍 。 

1. 新 颖 性 排名 

新 颖 性 排名 模块 的 目的 是 给 用 户 尽量 推荐 他 们 不 知道 的 、 长 尾 中 的 物品 。 虽然 前 面 的 过 滤 模 
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块 已 经 过 滤 掉 了 用 户 曾 经 有 过 行为 的 物品 , 保证 了 一 定 程 度 的 新 颖 性 , 但 是 用 户 在 当前 网 站 对 某 
个 物品 没有 行为 并 不 代表 用 户 不 知道 这 个 物品 ， 比 如 用 户 可 能 已 经 在 别 的 途径 知道 这 个 物品 了 。 
要 准确 了 解 用 户 是 否 已 经 知道 某 个 物品 是 非常 困难 的 , 因此 我 们 只 能 通过 某 种 近似 的 方式 知 
道 ， 比 如 对 推荐 结果 中 热门 的 物品 进行 降 权 ， 比 如 使 用 如 下 公式 : 
本 Pui 
log(ll + :popularity(7)) 
不 过 , 要 实现 推荐 结果 的 新 颖 性 , 仅仅 在 最 后 对 热门 物品 进行 降 权 是 不 够 的 ， 而 应 在 推荐 引 
擎 的 各 个 部 分 考虑 新 新 性 问题 。 
本 章 提 到 的 推荐 系统 架构 主要 是 基于 物品 的 推荐 算法 的 , 因此 可 以 回顾 一 下 基于 物品 的 推荐 
算法 的 基本 公式 : 











Pp ui 























Pui = ba Why 
jeN(WNS GK) 


在 这 个 公式 中 ，/ 就 是 联系 用 户 和 推荐 物品 的 特征 。 可 以 看 到 ， 最 终 p, 的 大 小 主要 取决 于 两 
个 参数 一 一 w; 和 x7, 。 其 中 ，x, 在 通过 用 户 行为 生成 用 户 特征 向 量 时 计算 ,而 w, 是 离线 计算 的 
物品 相似 度 。 如 果 要 提高 推荐 结果 的 新 颖 性 ， 在 计算 这 两 个 数 时 都 要 考虑 新 颖 性 。 

首先 ,如 果 使 用 ItemCF 算 法 ,根据 前 面 的 讨论 可 知 计算 出 的 相似 度 矩 阵 中 , 热门 物品 倾向 于 
和 热门 物品 相似 。 那 么 也 就 是 说 ， 如 果 用 户 对 一 个 热门 物品 j 产 生 了 很 多 行为 ， 有 很 大 的 x,。， 那 
么 和 这 个 热门 物品 相似 的 其 他 热门 物品 都 会 在 用 户 的 推荐 列表 中 排 在 靠 前 的 位 置 。 因此 ,如 果 要 
提高 推荐 结果 的 新 疾 度 ， 就 需要 对 x 进行 降 权 ， 比 如 使 用 如 下 公式 : 

Ty 
log(l + &: popularity( 7)) 

对 于 相似 度 部 分 ， 首 先 ， 图 7-10 展 示 了 MovieLens 数 据 集中 利用 ItemCF 算 法 计算 物品 相似 度 
后 ,每 个 物品 和 它 最 相似 物品 之 间 流 行 度 之 间 的 关系 。 从 这 个 图 可 以 发 现 , 热门 物品 倾 品 于 和 热 
门 物品 相似 , 冷门 物品 倾向 于 和 冷门 物品 相似 。 也 就 是 说 , 如 果 用 户 喜 欢 一 个 热门 的 物品 , ItemCF 
算法 也 很 难 给 他 推荐 一 个 冷门 的 物品 。 因 此 可 以 做 如 下 的 设计 。 首 先 ,考虑 到 推荐 系统 是 为 了 给 
用 户 介 绍 他 们 不 熟悉 的 物品 ,那么 可 以 假设 如 果 用 户 知道 了 物品 j， 对 物品 j 产 生 过 行为 ,那么 和 j 
相似 的 且 比 热门 的 物品 用 户 应 该 也 有 比较 大 的 概率 知道 ， 因 此 可 以 降低 这 种 物品 的 权重 ， 比 如 : 
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Ww (popularity(i) > popularity( 7)) 


lo g(l+0&:popularity(i)) 

此 外 , 也 可 以 引入 内 容 相 似 度 和 矩阵， 因为 内 容 相 似 度 矩阵 中 和 每 个 物品 相似 的 物品 都 不 是 很 
热门 ， 所 以 引入 内 容 相 似 度 矩阵 也 能 够 提高 最 终 推 荐 结果 的 新 疾 度 。 

利用 上 面 几 种 考虑 新 颖 性 的 方法 ， 我 们 可 以 通过 控制 参数 w 控制 最 终 推 荐 结果 的 新 颖 度 。 

2. 多 样 性 

多 样 性 也 是 推荐 系统 的 重要 指标 之 一 。 增 加 多 样 性 可 以 让 推荐 结果 覆盖 尽 可 能 多 的 用 户 兴 
趣 。 当 然 , 这 里 需要 指出 的 是 提高 多 样 性 并 不 是 时 时 刻 刻 都 很 好 。 比 如 在 个 性 化 网 络 电 台中 ， 
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为 用 户 某 一 固定 时 刻 的 兴趣 是 固定 的 , 所 以 不 希望 听 到 不 同 曲 风 的 歌曲 , 尽管 这 些 曲 风 可 能 都 是 
































用 户 之 前 表示 喜欢 的 。 不 过 ， 本 节 主 要 讨论 如 果 要 提高 多 样 性 ， 应 该 怎么 提高 。 
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图 7-10 ”相关 物品 之 间 流 行 度 之 间 的 关系 


第 一 种 提高 多 样 性 的 方法 是 将 推荐 结果 按照 某 种 物品 的 内 容 属性 分 成 几 类 , 然后 在 每 个 类 中 
都 选择 该 类 中 排名 最 高 的 物品 组 合成 最 终 的 推荐 列表 。 比 如 ， 如 果 是 电影 ， 可 以 按照 电影 的 类 别 
(爱情 片 、 动 作 片 、 科 和 幻 片 等 ) 对 推荐 结果 中 的 电影 分 类 ， 然 后 每 种 类 别 都 选 出 几 部 电影 组 成 最 
终 的 推荐 结果 。 

这 种 方法 的 好 处 是 比较 简单 直观 , 但 这 种 方法 也 有 严重 的 缺点 。 首 先 ， 选择 什么 样 的 内 容 属 
性 进行 分 类 对 结果 的 影响 很 大 。 其 次 ,就 算 选 择 了 某 种 类 别 , 但 物品 是 否 属 于 某 个 类 别 是 编辑 确 
定 的 , 并 不 一 定 能 够 得 到 用 户 的 公认 。 比 如 成 龙 的 电影 , 有 人 认为 是 功夫 片 , 有 人 认为 是 喜剧 片 ， 
不 同人 看 法 不 一 。 

因此 , 第 二 种 提高 推荐 结果 多 样 性 的 方法 是 控制 不 同 推荐 结果 的 推荐 理由 出 现 的 次 数 。 本 章 
提出 的 推荐 系统 对 于 每 个 推荐 出 来 的 物品 都 有 一 个 推荐 理由 , 这 个 推荐 理由 一 般 是 产生 推荐 结 
的 重要 特征 。 那 么 ， 要 提高 推荐 结果 的 多 样 性 ， 就 需要 让 推荐 结果 尽量 来 自 不 同 的 特征 ， 具 有 不 
同 的 推荐 理由 ， 而 不 是 所 有 的 推荐 结果 都 对 应 一 个 理由 。 

下 面 的 代码 根据 推荐 理由 增加 推荐 结果 的 多 样 性 ， 这 里 输入 的 recommendations 是 按照 权 
重 从 大 到 小 排序 的 , 程序 中 每 次 拿 出 一 个 推荐 结果 ， 如 果 这 个 结果 已 经 被 用 过 了 ， 就 会 对 推荐 结 
果 的 权重 除 以 2 降 权 ( 这 里 具体 除 以 几 可 以 在 实际 应 用 中 自己 调整 ), 最 终 将 推荐 结果 重新 按照 权 
重 从 大 到 小 排序 。 


def ReasonDiversity (recommendations): 
reasons = set() 
for i in recommendations: 
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if i.reason in reasons: 
i.weight /= 2 
reasons.add(i.reason) 
recommendations = sortByWeight (recommendations) 


3. 时 间 多 样 性 

时 间 多 样 性 主要 是 为 了 保证 用 户 不 要 每 天 来 推荐 系统 都 看 到 同样 的 推荐 结果 。 在 第 $ 章 已 经 
提 到 ， 提 高 推荐 系统 的 时 间 多 样 性 要 从 两 个 地 方 着 手 。 首 先 要 保证 推荐 系统 的 实时 性 ,在 用 户 有 
新 行为 时 实时 调整 推荐 结果 以 满足 用 户 最 近 的 需求 。 这 一 点 , 在 本 章 的 推荐 系统 设计 中 已 经 考虑 
到 了 。 如 果 用 户 有 实时 行为 发 生 , 那么 行为 提取 和 分 析 模 块 就 能 实时 拿 到 行为 数据 并 转化 为 新 的 





























特征 ， 然 后 经 过 特征 -物品 相关 模块 转换 成 和 新 特征 最 相关 的 物品 ， 因 而 推荐 列表 中 就 立即 反应 
了 用 户 最 新 行为 的 影响 。 提高 推荐 结果 多 样 性 的 第 二 个 方面 是 要 在 用 户 没 有 新 的 行为 时 , 也 要 保 
证 推荐 结果 每 天 都 有 变化 。 要 实现 这 一 点 ， 只 能 通过 如 下 方式 。 








口 记录 用 户 每 次 登陆 推荐 系统 看 到 的 推荐 结果 。 

口 将 这 些 结果 发 回 日 志 系 统 。 这 种 数据 不 需要 实时 存储 ， 只 要 能 保证 小 于 一 天 的 延 时 就 足 

够 了 。 

口 在 用 户 登 录 时 拿 到 用 户 昨天 及 之 前 看 过 的 推荐 结果 列表 ， 从 当前 推荐 结果 中 将 用 户 已 经 
看 到 的 推荐 结果 降 权 。 

4. 用 户 反馈 

排名 模块 最 重要 的 部 分 就 是 用 户 反 馈 模块 。 用 户 反 馈 模块 主要 通过 分 析 用 户 之 前 和 推荐 结果 
的 交互 日 志 ， 预 测 用 户 会 对 什么 样 的 推荐 结果 比较 感 兴趣 。 

如 果 推 荐 系统 的 目标 是 提高 用 户 对 推荐 结果 的 点 击 率 , 那么 可 以 利用 点 击 模型 ( click model ) 
预测 用 户 是 否 会 点 击 推荐 结果 。 点 击 模型 在 很 多 领域 得 到 了 广泛 应 用 , 比如 搜索 结果 的 点 击 预测 ”、 
搜索 广告 的 点 击 预测 ”、 上 下 文 广告 的 点 击 预测 ”。 点 击 预测 的 主要 问题 是 预测 用 户 看 到 某 个 推荐 
结果 时 是 否 会 点 击 。 那 么 要 进行 点 击 率 预测 ,首先 需要 提取 特征 。 在 推荐 系统 的 点 击 率 预测 中 可 
以 用 如 下 特征 预测 用 户 u 会 不 会 点 击 物 品 i: 

口 用 户 u 相 关 的 特征 ， 比 如 年 龄 、 性 别 、 活 跃 程度 、 之 前 有 没有 点 击 行为 ; 

口 物品 相关 的 特征 ， 比 如 流行 度 ， 平 均 分 ， 内 容 属性 ; 
口 物品 址 推荐 列表 中 的 位 置 。 用 户 的 点 击 和 用 户 界 面 的 设计 有 很 高 的 相关 性 ， 因 此 物品 址 
推荐 列表 中 的 位 置 对 预测 用 户 是 否 点 击 很 重要 ; 

口 用 户 之 前 是 否 点 击 过 和 推荐 物品 具有 同样 推荐 解释 的 其 他 推荐 结果 ; 

口 用 户 之 前 是 否 点 击 过 和 推荐 物品 i 来 自 同样 推荐 引擎 的 其 他 推荐 结果 。 

点 击 模型 需要 离线 计算 好 ,在线 将 模型 加 载 到 内 存 中 。 为 了 提高 在 线 预 测 的 效率 , 一般 只 可 






















































































GD 参见 论文 “A dynamic bayesian network click model for web search ranking”， 作 者 为 Olivier Chapelle 和 Ya Zhang。 

人 @) 参见 论文 “Online learning from click data for sponsored search”， 作 者 为 Massimiliano Ciaramita 、Vanessa Murdock 
和 Vassilis Plachouras。 

@ 参见 论文 “Contextual advertising by combining relevance with click feedback”， 作 者 为 Deepayan chakrabarti 、Deepak 
Agarwal 和 Vanja Josifovski。 
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以 使 用 线性 模型 。 


7.4 扩展 阅读 


关于 推荐 系统 架构 方面 的 文章 很 多 , 不 过 详细 介绍 架构 的 技术 报告 不 多 。 知 名 公司 亚马逊 和 
Netflix 等 都 只 给 出 了 一 些 简 单 的 线索 。 本 章 提 到 的 推荐 系统 架构 主要 是 基于 我 在 Hulu 工 作 时 使 用 
的 架构 抽象 发 挥 出 来 的 ， 对 于 Hulu 架 构 感 兴趣 的 读者 可 以 参考 Hulu 的 技术 博客 ”。 

MyMedia 是 一 个 比较 著名 的 开源 推荐 系统 架构 。 它 是 由 欧洲 研究 人 员 开 发 的 一 个 推荐 系统 
开源 框架 。 该 框架 同时 支持 评分 预测 和 TopN 推 荐 ,全面 支 持 各 种 数据 和 各 种 算法 ， 对 该 项 目 感 
兴趣 的 用 户 可 以 访问 该 项 目的 网 站 http://www.mymediaproject.org/default.aspx。 

本 章 提出 的 推荐 系统 架构 基本 上 是 从 基于 物品 的 推荐 算法 衍生 出 来 的 , 因此 本 章 的 架构 并 不 
适合 用 来 解决 社会 化 推荐 问题 。 如 果 要 了 解 社会 化 推荐 方面 的 架构 ， 可 以 参考 Twitter 公 开 的 一 些 
文档 。 


























GD 参见 http:Wtech.hulu.comyblog/2011/09/19/recommendation-systemy。 
@) 参见 http://mymediaproject.codeplex.com/。 
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第 儿 章 


本 书 到 





| 


评分 预测 问题 





目前 为 止 都 是 在 讨论 TopN 推 荐 ， 即 给 定 一 个 用 户 , 如 何 给 他 生成 一 个 长 度 为 N 的 推荐 
列表 ， 使 该 推荐 列表 能 够 尽量 满足 用 户 的 兴趣 和 需求 。 本 书 之 所 以 如 此 重视 TopN 推 荐 ， 是 因为 





























它 非常 接近 于 满足 实际 系统 的 需求 ， 实 际 系统 绝 大 多 数 情 况 下 就 是 给 用 户 提供 一 个 包括 N 个 物品 
的 个 性 化 推荐 列表 。 





但 是 ， 很 多 从 事 推荐 系统 研究 的 同学 最 早 接触 的 却 是 评分 预测 问题 。 





从 GroupLens 到 Netflix 


Prize 到 Yahoo! Music 的 KDD Cup ， 评 分 预测 问题 都 是 推荐 系统 研究 的 核心 。 评 分 预测 问题 最 基本 
的 数据 集 就 是 用 户 评分 数据 集 。 该 数据 集 由 用 户 评分 记录 组 成 , 每 一 条 评分 记录 是 一 个 三 元 组 (w， 








i, +)， 表 示 月 





有 户 u 给 物品 典 予 了 评分 r， 本 前月 


























有 表示 用 户 u 对 物品 的 评分 。 因 为 用 户 不 可 能 对 所 


有 物品 都 评分 , 因此 评分 预测 问题 就 是 如 何 通过 已 知 的 用 户 历史 评分 记录 预测 未 知 的 用 户 评分 记 
录 。 表 8-1 是 一 个 评分 预测 问题 的 例子 ， 在 该 例子 中 每 个 用 户 都 对 一 些 电影 给 出 了 评分 ， 比 如 用 





户 A 给 《虎口 脱险 》 评 了 1 分 ， 给 《唐山 大 兄 》 
游 》 评 了 5 分 。 但 是 ， 
客 帝 国 》 评 分 。 那么 ， 当 用 户 浏览 网 页 并 看 到 《变形 金刚 》 和 《黑客 帝国 》 时 ， 我 1 















































评 了 5 分 ， 给 《少林 足球 》 评 了 4 分 ,给 《大 话 西 
每 个 用 户 都 没有 对 所 有 电影 评分 ， 比 如 用 户 A 没 有 给 《变形 金刚 》 和 《 黑 





门 布 望 能 够 给 


用 户 一 个 分 数 表 明 我 们 认为 用 户 是 否 会 喜欢 这 部 电影 , 而 这 个 分 数 也 可 以 帮助 用 户 决策 是 否 要 看 
这 部 电影 ， 而 如 何 提高 这 个 分 数 的 预测 精度 就 是 评分 预测 要 解决 的 主要 问题 。 




















表 8-1 评分 预测 问题 举例 
虎口 脱险 变形 金刚 唐山 大 兄 少林 足球 大 话 西 游 黑客 帝国 
A 1 ? 5 4 5 ? 
B 4 2 ? 3 ? 5 
C ? 4 ? 3 ? 5 
D 5 ? 5 ? 2 ? 
E ? 5 ? ? 4 4 


本 章 将 主要 讨论 评分 预测 这 一 推荐 领域 的 经 典 问 题 。 因 为 这 一 问题 的 研究 集中 在 学 术 界 , 所 
以 本 童 的 介绍 也 比较 偏 学 术 ， 相 对 前 面 各 前 会 增加 一 些 公 式 和 理论 的 讨论 。 
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8.1 离线 实验 方法 


评分 预测 问题 基本 都 通过 离线 实验 进行 研究 。 在 给 定 用 户 评分 数据 集 后 ,研究 人 员 会 将 数据 
集 按照 一 定 的 方式 分 成 训练 集 和 测试 集 , 然后 根据 测试 集 建立 用 户 兴趣 模型 来 预测 测试 集中 的 用 
户 评分 。 对 于 测试 集中 的 一 对 用 户 和 物品 (w7)， 用 户 u 对 物品 的 真实 评分 是 x。， 而 推荐 算法 预 
测 的 用 户 u 对 物品 的 评分 为 ， 那 么 一 般 可 以 用 均 方 根 误差 RMSE 度 量 预测 的 精度 : 


De 
| Test | 
评分 预测 的 目的 就 是 找到 最 好 的 模型 最 小 化 测试 集 的 RMSE。 
关于 如 何 划 分 训练 集 和 测试 集 ， 如 果 是 和 时 间 无 关 的 预测 任务 , 可 以 以 均匀 分 布 随 机 划分 数 

据 集 ， 即 对 每 个 用 户 ， 随 机 选择 一 些 评分 记录 作为 测试 集 ， 剩 下 的 记录 作为 测试 集 。 如 果 是 和 时 

间 相 关 的 任务 ， 那么 需要 将 用 户 的 旧 行 为 作为 训练 集 , 将 用 户 的 新 行为 作为 测试 集 。Netflix 通 过 

如 下 方式 划分 数据 集 ， 首 先 将 每 个 用 户 的 评分 记录 按照 从 早 到 晚 进 行 排序 ,然后 将 用 户 最 后 10% 

的 评分 记录 作为 测试 集 ， 前 90% 的 评分 记录 作为 训练 集 。 


8.2 评分 预测 算法 


自从 Netflix Prize 大 赛 以 来 ,不同 国 家 的 不 同 研究 人 员 提 出 了 很 多 评分 预测 算法 ， 而 Netflix 
Prize 的 获胜 队伍 更 是 用 了 上 百 个 不 同 的 模型 才 取得 了 最 终 的 成 功 。 本 节 将 从 简单 到 复杂 地 介绍 具 
有 代表 性 的 算法 ， 并 给 出 它们 在 Netflix 数 据 集 上 的 效果 。 


8.2.1 平均 值 
最 简单 的 评分 预测 算法 是 利用 平均 值 预测 用 户 对 物品 的 评分 的 。 下 面 各 节 将 分 别 介绍 各 种 不 
同 的 平均 值 。 


1. 全 局 平均 值 
在 平均 值 里 最 简单 的 是 全 局 平均 值 。 它 的 定义 为 训练 集中 所 有 评分 记录 的 评分 平均 值 : 

















RMSE = 










































































h 至 2 Ni 
el 
(ue Train 
而 最 终 的 预测 函数 可 以 直接 定义 为 : 
广 一 lM 


2. 用 户 评 分 平均 值 
用 户 u 的 评分 平均 值 元 定义 为 用 户 u 在 训练 集中 所 有 评分 的 平均 值 : 
7 


1 
iEN(u) 





fi 
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而 最 终 的 预测 函数 可 以 定义 为 : 


A 
ll 
sl| 


3. 物品 评分 平均 什 
物品 的 评分 平均 值 志 定义 为 物品 在 训练 集中 接受 的 所 有 评分 的 平均 值 : 
Dn 
ml 


矿 三 


而 最 终 的 预测 函数 可 以 定义 为 : 


SS 
| 
| 


4. 用 户 分 类 对 物品 分 类 的 平均 什 

假设 有 两 个 分 类 函数 ， 一 个 是 用 户 分 类 函数 p ， 一 个 是 物品 分 类 函数 g 。 Wu) 定义 了 用 户 u 
所 属 的 类 ，gq(i) 定义 了 物品 所 属 的 类 。 那 么 ， 我 们 可 以 利用 训练 集中 同类 用 户 对 同类 物品 评分 
的 平均 值 预测 用 户 对 物品 的 评分 ， 即 ; 








于 
Se » 





ha 


2 

前 面 提 出 的 全 局 平均 值 ， 用 户 评分 平均 值 和 物品 评分 平均 值 都 是 类 类 平均 值 的 一 种 特例 。 

口 如 果 定 义 p(w) =0, oG) =0 ， 那 么 六 就 是 全 局 平均 值 。 

口 如 果 定 义 8(w) =u, VD=0， 那么 六 就 是 用 户 评分 平均 值 。 

口 如 果 定 义 p(w) =0, oO = ， 那 么 六 就 是 物品 评分 平均 值 。 

除了 这 3 种 特殊 的 平均 值 ， 在 用 户 评分 数据 上 还 可 以 定义 很 多 不 同 的 分 类 函数 。 

口 用 户 和 物品 的 平均 分 “对 于 一 个 用 户 ， 可 以 计算 他 的 评分 平均 分 。 然 后 将 所 有 用 户 按照 
评分 平均 分 从 小 到 大 排序 ， 并 将 用 户 按照 平均 分 平均 分 成 N 类 。 物品 也 可 以 用 同样 的 方式 
分 类 。 

口 用 户 活跃 度 和 物品 流行 度 ” 对 于 一 个 用 户 ， 将 他 评分 的 物品 数量 定义 为 他 的 活跃 度 。 得 
到 用 户 活 跃 度 之 后 ,可 以 将 用 户 通过 活跃 度 从 小 到 大 排序 ,然后 平均 分 为 N 类 。 物 品 的 流 
行 度 定 义 为 给 物品 评分 的 用 户 数目 ， 物 品 也 可 以 按照 流行 度 均匀 分 成 N 类 。 

下 面 的 Python 代 码 给 出 了 类 类 平均 值 的 计算 方法 。 

def PredictAll (records, user_cluster, item cluster): 

total = dict() 
count = dict() 
for r in records: 
I St Fs 0 
continue 
gu = user_cluster.GetGroup(r.user) 
gi = item cluster.GetGroup(r.item) 
basic.AddToMat (total, gu, gi, r.vote) 
basic.AddToMat (count, gu, gi, 1) 
for r in records: 


gu = user_cluster.GetGroup(r.user) 
gi = item cluster.GetGroup(r.item) 
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average = total[gul [gil / (1.0 * count [gu]l [gil + 1.0) 


r.predict = average 


在 这 段 代 码 中 , user_cluster .GetGroup 痕 数 接收 一 个 用 户 刀 ,然后 根据 一 定 的 算法 返回 
用 户 的 类 别 。item_cluster.GetGroup 函数 接收 一 个 物品 的 ID ， 然 后 根据 一 定 的 算法 返回 物品 的 类 
别 。total[gu]l [gil /count [gu] [gi] 记 录 了 第 gu 类 用 户 给 第 gi 类 物品 评分 的 平均 分 。 

上 文 提 到 ，user_cluster 和 item_cluster 有 很 多 不 同 的 定义 方式 ， 下 面 的 Python 代码 给 
出 了 不 同 的 user_cluster 和 item_cluster 定 义 方式 。 其 中 ，cluster 是 基 类 ， 对 于 任何 用 户 和 
物品 ， 它 的 cetcroup 函 数 都 返回 0， 因 此 如 果 user_cluster 和 :item_clutetr 都 是 Cluster 类 型 ， 
那么 最 终 的 预测 函数 就 是 全 局 平均 值 , Idcluster 的 CetGroup 函 数 接收 一 个 也, 会 返回 这 个 ID ， 


那么 如 果 user_cluster 是 Cluster 类 型 ,而 item_cluster 是 IdCluster 























， 那 么 最 终 的 预 


测 函 数 给 出 的 就 是 物品 平均 值 。 以 此 类 推 , 表 8-2 展 示 了 MovieLens 数 据 集中 利用 不 同 平均 值 方法 
得 到 的 RMSE， 实 验 结果 表明 对 用 户 使 用 Uservotecluster， 对 物品 采用 ItemvoteCcluster， 





可 以 获得 最 小 的 RMSE。 


class Cluster: 
def _ init_ _ (self,records): 
self.group = dict() 


def GetGroup (self, i): 
return 0 


class IdCluster (Cluster): 
def _ init_ _(self, records): 
Cluster.__init _ (self, records) 


def GetGroup (self, i): 
return i 


class UserActivityCluster (Cluster): 
def _ init_ _(self, records): 
Cluster.__init _ (self, records) 
Activity := dict() 
for r in records: 


生态 小三 
continue 
basic.AddToDict (activity, r.user, 1) 
k=- 
for user, n in sorted(activity.items(), \ 


key=itemgetter(1), reverse=False): 


C= lnt((R* 5) / 1,0 * Len(activity))) 
self.group[user] = c 
k += 1 


def GetGroup(self, uid): 
if uid not in self.group: 
return -1 
else: 
return self.groupl[luid] 
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class ItemPopularityCluster (Cluster): 
def _ init__ (self, records): 
Cluster._ init_ (self, records) 
DoOpUlarity = Qict() 
fOr YE Tn TOCords: 


1 est Ta 0 
continue 
basic.AddToDict (popularity, r.item, 1) 
k=0 
for item, n in sorted(popularity.items(), \ 


key=itemgetter(1), reverse=False): 
EE LntE((kR * 5) / (lL.0 * Len(poouLlarity}))) 
self.group[item] = c 
k += 1 


def GetGroup(self, item): 
if item not in self.group: 
return -1 
else: 
return self.groupl[litem] 


class UserVoteCluster (Cluster): 
def _ init__(self, records): 
Cluster.__init_ (self, records) 
Vote = diet() 
count = dict() 
for r in records: 
if Ytest l= Os 
continue 
basic.AddToDict (vote, r.user, r.vote) 
basic.AddToDict (count, r.user, 1) 
尽 三 必 
for user, Vv in vote.items(): 
ave = Vv / (count[luser] * 1.0) 
Tmt (ave * 2) 
self.group[user] = c 


def GetGroup (self, uid): 
if uid not in self.group: 
return -1 
else: 
return self.group[luid] 


class ItemVoteCluster (Cluster): 
def _ init__(self, records): 
Cluster.__init_ (self, records) 
vote = dict() 
Gount = Qiet() 
fOr Yr iN TOCOrds: 
if r.test != 0: 
continue 
basic.AddToDict (vote, r.item, r.vote) 
basic.AddToDict (count, r.item, 1) 
0 
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for item, Vv in vote.items() : 
ave = Vv / (count[item] * 1.0) 
= int(ave * 2) 
self.group[item] = c 


def GetGroup(self, item): 
if item not in self.group: 
return -1 
else: 
return self.group[item] 


表 8-2 ”MovieLens 数 据 集 上 不 同 平均 值 方法 的 RMSE 








UserGroup ltemGroup Train RMSE Test RMSE 
Cluster Cluster 1.1171 1.1167 
IdCluster Cluster 1.0289 1.0351 
Cluster IdCluster 0.9754 0.9779 
UserActivityCluster Cluster 1.1100 1.1093 
UserActivityCluster IdCluster 0.9740 0.9914 
Cluster ItemPopularityCluster 1.0902 1.0891 
IdCluster ItemPopularityCluster 1.0004 1.0258 
UserActivityCluster ItemPopularityCluster 1.0860 1.0847 
UserVoteCluster Cluster 1.0370 1.0425 
UserVoteCluster IdCluster 0.9209 0.9441 
Cluser ItemVoteCluster 0.9841 0.9864 
IdCluster ItemVoteCluster 0.9055 0.9449 
UserVoteCluster ItemVoteCluster 0.9272 0.9342 


8.2.2 ”基于 邻 域 的 方 


基于 用 户 的 邻 域 算法 和 基于 物品 的 邻 域 算法 都 可 以 应 用 到 评分 预测 中 。 基于 用 户 的 邻 域 算法 
认为 预测 一 个 用 户 对 一 个 物品 的 评分 , 需要 参考 和 这 个 用 户 兴趣 相似 的 用 户 对 该 物品 的 评分 , 即 : 
A 二 snvo Wo 7) 
” " > 
这 里 ，S(w, 是 和 用 户 u 兴 趣 最 相似 的 K 个 用 户 的 集合 ，NQ) 是 对 物品 i 评 过 分 的 用 户 集 合 ，x,， 
是 用 户 v 对 物品 的 评分 ,元 是 用 户 v 对 他 评 过 分 的 所 有 物品 评分 的 平均 值 。 用户 之 间 的 相似 度 w， 
可 以 通过 皮尔 逊 系 数 计算 : 





























Ww = Dm 7) 0v 一 元) 
uv. 一 7 一 7 
dt 
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下 面 的 Python 代码 实现 了 用 户 相 似 度 的 计算 和 最 终 的 预测 函数 : 


def UserSimilarity (records) : 

item users = Qict() 

ave_vote = Qict() 

detivity SQLicet(y 

for r in records: 
addToMat (item users, r.item, r.user, r.value) 
addToVec (ave_vote, r.user, r.value) 
addToVec (activity, r.user, 1) 


ave_vote = {x:y/activityl[lx] for x,y in ave_vote.items()} 
ni SS iet(y) 
We diet() 


for i,ri in item users.items(): 
for u,rui in ri.items(): 


addToVec(nu, u, (rui - ave_vote[u])*(rui - ave_vote[u])) 
for Vv,rvi in ri.items(): 
i 
continue 
addToMat (W, u, Vv, \ 
(rui - ave vote[u])*(rvi - ave_ vote[v])) 
for u in W: 
W[u]l = {x:y/math.sqrt (nu[x]*nu[u]) for xy in Wl[ul].items()} 
return W 


def PredictAll (records, test, ave vote, W, K): 
user_items = dict() 
for r in records: 
addToMat (user_items, r.user, r.item, r.value) 
for r in test: 
rv Bredict 3 0 
GI 过 刘 
for V,wuv in sorted(W[r.user].items(), \ 
key=itemgetter(1), reverse=True) [0:K]: 
if r.item in user_itemsl[v]: 
rvi = user_items[v][r.iteml] 
r.predict += wuv * (rvi - ave_vote[v]) 
norm += abs (wuv) 
if norm > 0: 
r.predict /= norm 
r.predict += ave_vote[r.user] 


基于 物品 的 邻 域 算法 在 预测 用 户 u 对 物品 的 评分 时 ， 会 参考 用 户 u 对 和 物品 相似 的 其 他 物品 
的 评分 ， 即 : 
ee De (1 -7) 
Dg 
这 里 ，S(i, 是 和 i 最 相似 的 物品 集合 ，N(w) 是 用 户 u 评 过 分 的 物品 集合 ，w, 是 物品 之 间 的 相 
似 度 ， 万 是 物品 的 平均 分 。 对 于 如 何 计算 物品 的 相似 度 ，Badrul Sarwar 等 在 论文 "里 做 了 详细 的 


区 








| 














GD 参见 Badrul Sarwar、George Karypis、Joseph Konstan 和 John Riedl 的 “Item-based Collaborative Filtering Recommendation 
Algorithms”( ACM 2001 Article, 2001 )。 
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人 研究， 文章 比较 了 3 种 主要 的 相似 度 。 
第 一 种 是 普通 的 余弦 相似 度 ( cosine similarity ): 
ee De 
” 
第 二 种 是 皮尔 逊 系数 (pearson correlation): 
em 
a 
第 三 种 被 Sarwar 称 为 修正 的 余弦 相似 度 (adjust cosine similarity ): 
人 
本 
Sarwar 利 用 MovieLens 最 小 的 数据 集 对 3 种 相似 度 进行 了 对 比 *"， 并 将 MAE 作 为 评测 指标 。 实 
验 结果 表明 利用 修正 后 的 余弦 相似 度 进行 评分 预测 可 以 获得 最 优 的 MAE。 不 过 需要 说 明 的 是 ， 
在 一 个 数据 集 上 的 实验 并 不 意味 着 在 其 他 数据 集 上 也 能 获得 相同 的 结果 。 






























































8.2.3 ”隐语 义 模型 与 矩阵 分 解 模 型 


最 近 这 几 年 做 机 带 学 习 和 数据 挖掘 研究 的 人 经 常会 看 到 下 面 的 各 种 名 词 ， 即 隐 仿 类 别 模型 
(Latent Class Model )、 隐 语义 模型 (Latent Factor Model )、pLSA、LDA、Topic Model、Matrix 
Factorization 、Factorized Model。 

这 些 名词 在 本 质 上 应 该 是 同一 种 思想 体系 的 不 同 扩展 。 在 推荐 系统 领域 , 提 的 最 多 的 就 是 潜 
语义 模型 和 抢 阵 分 解 模型 。 其 实 ,， 这 两 个 名 词 说 的 是 一 回 事 ， 就 是 如 何 通过 降 维 的 方法 将 评分 矩 
阵 补 全 。 

用 户 的 评分 行为 可 以 表示 成 一 个 评分 矩阵 R， 其 中 RIu][ 就 是 用 户 u 对 物品 的 评分 。 但 是 , 用 
户 不 会 对 所 有 的 物品 评分 ， 所 以 这 个 矩阵 里 有 很 多 元 素 都 是 空 的 ， 这 些 空 的 元 素 称 为 缺失 值 
( missing value )。 因 此 ， 评 分 预测 从 某 种 意义 上 说 就 是 填空 ， 如 果 一 个 用 户 对 一 个 物品 没有 评 过 
分 ， 那 么 推荐 系统 就 要 预测 这 个 用 户 是 否 是 否 会 对 这 个 物品 评分 以 及 会 评 几 分 。 

1. 传统 的 SVD 分 解 

对 于 如 何 补 全 一 个 矩阵 ， 历 史上 有 过 很 多 的 研究 。 一 个 空 的 矩阵 有 很 多 种 补 全 方法 ， 而 我 们 
要 找 的 是 一 种 对 矩阵 扰动 最 小 的 补 全 方法 。 那么 什么 才 算 是 对 矩阵 扰动 最 小 呢 ? 一 般 认为 ,如 果 
补 全 后 和 矩阵 的 特征 值 和 补 全 之 前 矩阵 的 特征 值 相差 不 大 ,就 算是 扰动 比较 小 。 所 以 , 最 早 的 矩阵 
分 解 模型 就 是 从 数学 上 的 SVD ( 奇异 值 分 解 ) 开始 的 。 ”给 定 mm 个 用 户 和 7z 个 物品 ， 和 用 户 对 物品 





































































































仙 参见 Badrul Sarwar、George Karypis、Joseph Konstan 和 John Riedl 的 “Item-based Collaborative Filtering Recommendation 
Algorithms” ( ACM 2001 Article, 2001 )。 
@) 参见 Daniel Billsus 和 Michael J. Pazzani 的 “Learning Collaborative Information Filters”( 1998 )。 
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的 评分 矩 阵 Re 展 ” 。 首 先 需 要 对 评分 矩阵 中 的 缺失 值 进行 简单 地 补 全 ， 比 如 用 全 局 平均 值 ,或 
者 用 户 / 物 品 平 均值 补 全 ， 得 到 补 全 后 的 矩阵 R'。 接着 ， 可 以 用 SVD 分 解 将 R 分 解 成 如 下 形式 : 
R’=U’SV 
其 中 Ue RR*” ,Ve RR 是 两 个 正 交 和 矩 了 泗 ，Se RR 是 对 角 阵 ， 对 角 线 上 的 每 一 个 元 素 都 是 矩阵 
的 奇异 值 。 为 了 对 R' 进 行 降 维 , 可 以 取 最 大 的 f 个 奇异 值 组 成 对 角 和 矩阵 $j, 并 且 找 到 这 /个 奇异 值 中 
每 个 值 在 V、F7 下 阵 中 对 应 的 行 和 列 ， 得 到 LV、Vr， 从 而 可 以 得 到 一 个 降 维 后 的 评分 矩阵 : 
Ry Uj SV 
其 中 ，R; (wi) 就 是 用 户 u 对 物品 i 评分 的 预测 值 。 
SVD 分 解 是 早期 推荐 系统 研究 常用 的 矩阵 分 解 方法 , 不 过 该 方法 具有 以 下 缺点 ,因此 很 难 在 
实际 系统 中 应 用 。 
口 该 方法 首先 需要 用 一 个 简单 的 方法 补 全 稀 跑 评分 和 矩阵。 一 般 来 说 ， 推 荐 系统 中 的 评分 矩 
阵 是 非常 稀 玻 的 ,一 般 都 有 95% 以 上 的 元 素 是 缺失 的 。 而 一 旦 补 全 , 评分 矩 阵 就 会 变 成 一 
个 稠密 和 矩阵， 从 而 使 评分 矩阵 的 存储 需要 非常 大 的 空间 ， 这 种 空间 的 需求 在 实际 系统 中 
是 不 可 能 接受 的 。 
口 该 方法 依赖 的 SVD 分 解 方法 的 计算 复杂 度 很 高 ， 特 别 是 在 稠密 的 大 规模 矩阵 上 更 是 非常 
慢 。 一 般 来 说 ， 这 里 的 SVD 分 解 用 于 1000 维 以 上 的 矩阵 就 已 经 非常 慢 了 ， 而 实际 系统 动 
辑 是 上 千 万 的 用 户 和 几 百 万 的 物品 ， 所 以 这 一 方法 无 法 使 用 。 如 果 仔 细 研 究 关 于 这 一 方 
法 的 论文 可 以 发 现 ， 实 验 都 是 在 几 百 个 用 户 、 几 百 个 物品 的 数据 集 上 进行 的 。 
2. Simon Funk 的 SVD 分 解 
正 是 由 于 上 面 的 两 个 缺点 ，SVD 分 解 算 法 提出 几 年 后 在 推荐 系统 领域 都 没有 得 到 广泛 的 关 
注 。 直 到 2006 年 Netflix Prize 开 始 后 ，Simon Funk 在 博客 上 公布 了 一 个 算法 2 ( 称 为 Funk-SVD )， 
一 下 子 引 爆 了 学 术 界 对 和 矩阵 分 解 类 方法 的 关注 。 而 且 ，Simon Funk 的 博客 也 成 为 了 很 多 学 术 论文 
经 常 引 用 的 对 象 。Simon Funk 提 出 的 矩阵 分 解 方法 后 来 被 Netflix Prize 的 冠军 Koren 称 为 Latent 
Factor Model ( 简称 为 LFM )。 
第 3 章 曾经 简单 介绍 过 LEFM 在 TopN 推 荐 中 的 应 用 , 因此 这 里 我 们 不 再 详细 介绍 这 一 方面 背后 
的 思想 。 从 矩阵 分 解 的 角度 说 ， 如 果 我 们 将 评分 矩阵 R 分 解 为 两 个 低 维 和 矩阵 相 乘 : 
及 = P7O 
其 中 Pe RY?” 和 Oe RRY 是 两 个 降 维 后 的 矩阵 。 那 么 ， 对 于 用 户 u 对 物品 i 的 评分 的 预测 值 
R(w,i) = ， 可 以 通过 如 下 公式 计算 : 






















































































,= Dpyqy 
其 中 py = P(u,/) ，g;; = 0(i,f)。 那 么 ，Simon Funk 的 思想 很 简单 : 可 以 直接 通过 训练 集中 
的 观察 值 利用 最 小 化 RMSE 学 习 P、0O 和 矩阵 。 





人 参见 Simon Funk 的 博客 ,文章 地 址 为 http://sifter.org/~simon/journal/20061211.html。 


图 灵 社区 会 员 臭 豆腐 (StinkBC@gmail.com) 专 享 尊重 版 权 


188 第 8 章 评分 预测 问题 





Simon Funk 认 为 ， 既 然 我 们 用 RMSE 作 为 评测 指标 ,那么 如 果 能 找到 合适 的 P、2 来 最 小 化 训 
练 集 的 预测 误差 ， 那 么 应 该 也 能 最 小 化 测试 集 的 预测 误差 。 因 此 ，Simon Funk 定 义 损失 函数 为 : 


2 
F 

C(P,9) = > (7 -A) 二 > [: -pe | 
| 


(ui)e Train (ui)eTrain 








直接 优化 上 面 的 损失 函数 可 能 会 导致 学 习 的 过 拟 合 ， 因 此 还 需要 加 入 防止 过 拟 合 项 


























A(|p,| +a 上 )， 其 中 外 是 正则 化 参数 ， 从 而 得 到 : 
F 到 
co- (mEps0 | +2(ol +hel) 
(ueTrain 了 =1 


要 最 小 化 上 面 的 损失 函数 ， 我 们 可 以 利用 随机 梯度 下 降 法 "“。 该 算法 是 最 优化 理论 里 最 基础 
的 优化 算法 ， 它 首先 通过 求 参数 的 偏 导 数 找 到 最 速 下 降 方向 ， 然 后 通过 迭代 法 不 断 地 优化 参数 。 
下 面 我 们 将 介绍 优化 方法 的 数学 推导 。 

上 面 定 义 的 损失 函数 里 有 两 组 参数 (pw 和 qyr)， 最 速 下 降 法 需要 首先 对 它们 分 别 求 偏 导数 ， 
可 以 得 到 








> 29A 十 24p, 

9pv 

一 2 Dp, 本 249x 

opy 
然后 ,根据 随机 梯度 下 降 法 ,需要 将 参数 沿 着 最 速 下 降 方 向 向 前 推进 ， 因 此 可 以 得 到 如 下 递 推 
公式 : 


Py = Pat QC(qi -Mp,) 
gr = qi + A(pu -Aqi) 
其 中 ，w 是 学 习 速 率 ( learning rate )， 它 的 取 值 需要 通过 反复 实验 获得 。 
下 面 的 代码 实现 了 学 习 LFM 模 型 时 的 迭代 过 程 。 在 LearningLFM 函 数 中 ， 输 入 train 是 训 
练 集中 的 用 户 评分 记录 ，F 是 隐 类 的 格式 ，n 是 欠 代 次 数 。 


def LearningLFM(train, F, n, alpha, lambda): 
[p,q] = InitLFM(train, F) 
for step in range(0, n): 
for Wi,Fui in train.itenmes(): 
pui = Predict(u, i, p, q) 
eui = rui - pui 
for f in range(0,F): 
p[u][k] += alpha * (gq[i][k] * eui - lambda * pl[lu] [k]) 
gq[i][k] += alpha * (p[u] [k] * eui - lambda * g[i][k]) 
alpha *= 0.9 
return list(p, q) 


如 上 面 的 代码 所 示 ，LearningLFM 主 要 包括 两 步 。 首 先 ， 需要 对 P、Q 和 矩阵 进行 初始 化 ， 然 











人 参见 http:/en.wikipedia.org/wiki/Stochastic_gradient descent。 
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后 需要 通过 随机 梯度 下 降 法 的 迭代 得 到 最 终 的 P、O 矩 阵 。 在 友 代 时 , 需要 在 每 一 步 对 学 习 人 参数 w 
进行 衰减 (alpha *= 0.9)， 这 是 随机 梯度 下 降 法 算法 要 求 的 ， 其 目的 是 使 算法 尽快 收敛 。 如 果 
形象 一 点 说 就 是 ， 如 果 需 要 在 一 个 区 域 找到 极 值 , 一 开始 可 能 需要 大 范围 搜索 , 但 随 着 搜索 的 进 
行 ， 搜 索 范围 会 逐渐 缩小 。 
初始 化 P、92 和 矩阵 的 方法 很 多 ， 一 般 都 是 将 这 两 个 和 矩阵 用 随机 数 填充 ， 但 随机 数 的 大 小 还 是 
有 讲究 的 ， 根 据 经 验 ， 随 机 数 需要 和 1L/sqrt(m) 成 正比 。 下 面 的 代码 实现 了 初始 化 功能 。 
def InitLFM(train, F): 
各 生计 仿 世人) 
di LGt (> 
for u, i, rui in train.items(): 
工业 :位 a eh 
plu] = [random, random() /math, sqrt (F)} VX 
for x in range(0,F)] 
主攻 Ot LN gs 
gq[i] = [random.random()/math.sqrt(F) \ 
for x in range(0,F)] 
return list(p, qa) 


而 预测 用 户 u 对 物品 的 评分 可 以 通过 如 下 代码 实现 : 


def Predict(u, i, p, q): 
return sum(p[u] [f] * ql[li][f] for f in range(0,1len(pl[u])) 


LFM 提 出 之 后 获得 了 很 大 的 成 功 , 后 来 很 多 著名 的 模型 都 是 通过 对 LFM 修 修补 补 获得 的 , 下 
面 的 各 节 将 分 别 介绍 一 下 改进 LFM 的 各 种 方法 。 这 些 改进 有 些 是 对 模型 的 改进 , 有 些 是 将 新 的 数 
据 引 入 到 模型 当中 。 
3. 加 入 偏 置 项 后 的 LFM 
再 次 回顾 一 下 上 一 节 提 出 的 LFM 预 测 公 式 : 
2 2 Pyqy 


这 个 预测 公式 通过 隐 类 将 用 户 和 物品 联系 在 了 一 起 。 但 是 , 实际 情况 下 ,一 个 评分 系统 有 些 
固有 属性 和 用 户 物品 无 关 ， 而 用 户 也 有 些 属性 和 物品 无 关 ， 物 品 也 有 些 属性 和 用 户 无 关 。 因 此 ， 
Netflix Prize 中 提出 了 另 一 种 LFEM， 其 预测 公式 如 下 : 

b=M+b, +b,+p, :gq, 

这 个 预测 公式 中 加 入 了 3 项 AL 、b, 、b, 。 本 章 将 这 个 模型 称 为 BiasSVD。 这 个 模型 中 新 增加 
的 三 项 的 作用 如 下 。 

口 x ”训练 集中 所 有 记录 的 评分 的 全 局 平均 数 。 在 不 同 网 站 中 ， 因 为 网 站 定位 和 销售 的 物 

品 不 同 ， 网 站 的 整体 评分 分 布 也 会 显示 出 一 些 差异 。 比 如 有 些 网 站 中 的 用 户 就 是 喜欢 打 
高 分 ， 而 另 一 些 网 站 的 用 户 就 是 喜欢 打 低 分 。 而 全 局 平均 数 可 以 表示 网 站 本 身 对 用 户 评 
分 的 影响 。 

口 p。 用 户 偏 置 (user bias ) 项 。 这 一 项 表示 了 用 户 的 评分 习惯 中 和 物品 没有 关系 的 那 种 

因素 。 比 如 有 些 用 户 就 是 比较 苛刻 ， 对 什么 东西 要 求 都 很 高 ， 那 么 他 的 评分 就 会 偏 低 ， 
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而 有 些 用 户 比 较 宽 容 ， 对 什么 东西 都 觉得 不 错 ， 那 么 他 的 评分 就 会 偏 高 。 

口 六 物品 偏 置 (item bias ) 项 。 这 一 项 表示 了 物品 接受 的 评分 中 和 用 户 没有 什么 关系 的 
因素 。 比 如 有 些 物品 本 身 质量 就 很 高 ， 因 此 获得 的 评分 相对 都 比较 高 ， 而 有 些 物品 本 身 
质量 很 差 ， 因 此 获得 的 评分 相对 都 会 比较 低 。 

增加 的 3 个 参数 中 ， 只 有 b, 、 狐 是 要 通过 机 器 学 习 训练 出 来 的 。 同 样 可 以 求 导 ， 然 后 用 梯度 

下 降 法 求解 这 两 个 参数 ， 我 们 对 LearningLFM 稍 做 修改 ， 就 可 以 支持 BiasLFM 模 型 


def LearningBiasLFM(train, F, n, alpha, lambda, mu): 
[bu, bi, p,qgq] = InitLFM(train, F) 
for step in range(0, n): 
Eo UyirEUL. LN traln. itenms():s 
pui = Predict(u, i, p, qq, bu, bi, mu) 














总 证 主 .三 ， 六 访 于 = 交友 和 
u[u] += alpha * (eui - lambda * bulul]) 
i[i] += alpha * (eui - lambda * bi[i]) 
ee f in range(0,F): 
p[u][k] += alpha * (gq[i][k] * eui - lambda * pl[u] [k]) 
q 


[i][k] += alpha * (p[u][k] * eui - lambda * ql[i][k]) 
lpha *s 站 ,全 
return list(bu, bi, p, q) 


b,、 b, 在 一 开始 只 要 初始 化 成 全 0 的 向 量 。 


def InitBiasLFM(train, F): 


BD: = diet(y) 
e 攻 三 本 ce 的 
bu = dietly) 
bl 过 和 全 
for u, i, rui in train.items() : 
bulu] = 0 
本 二 国王 王 9 
if u Not in pp: 
plu] = [random.random()/math.sqrt(F) for x in range(0,F)] 
EE Ot TG 
q[i] = [random.random()/math.sqrt(F) for x in range(0,F)] return 
list(p, q) 


def Predict(u, i, p, gq, bu, bi, mu): 
ret = mu + bu[lu] + bil[i] 
ret += sum(p[u] [f] * gq[i][f] for f in range(0,len(p[lul])) 
return ret 


4. 考虑 邻 域 影响 的 LFM 

前 面 的 LFM 模 型 中 并 没有 显 式 地 考虑 用 户 的 历史 行为 对 用 户 评 分 预测 的 影响 。 为 此 ，Koren 
在 Netflix Prize 比 赛 中 提出 了 一 个 模型 "， 将 用 户 历 史 评 分 的 物品 加 入 到 了 LFM 模 型 中 ，Koren 将 
该 模型 称 为 SVD++。 

在 介绍 SVD++ 之 前 ,我 们 首先 讨论 一 下 如 何 将 基于 邻 域 的 方法 也 像 LFEM 那 样 设 计 成 一 个 可 

















人 参见 YehudaKoren 的 “Factorin the Neighbors: Scalable and Accurate Collaborative Filtering”( ACM 2010 Article, 2010 )。 
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以 学 习 的 模型 。 其 实 很 简单 ， 我 们 可 以 将 ItemCF 的 预测 算法 改 成 如 下 方式 ; 
> 1 
J 
这 里 ，w, 不 再 是 根据 ftemCP 算 法 计算 出 的 物品 相似 度 矩 阵 ， 而 是 一 个 和 P、0 一 样 的 参数 ， 
它 可 以 通过 优化 如 下 的 损失 函数 进行 优化 ; 


C(w) = 方 六 > om + 


(ui)eTrain jeN(u) 

不 过 ， 这 个 模型 有 一 个 缺点 ， 就 是 w 将 是 一 个 比较 稠密 的 矩阵 ， 存 储 它 需 要 比较 大 的 空间 。 
此 外 ， 如 果 有 7 个 物品 ， 那 么 该 模型 的 参数 个 数 就 是 mz 个 ， 这 个 参数 个 数 比较 大 ， 容 易 造成 结果 
的 过 拟 合 。 因 此 ，Koren 提 出 应 该 对 w 符 阵 也 进行 分 解 ， 将 参数 个 数 降低 到 2smxF 个 ， 模 型 如 下 

和 1 7 7 
”es) 

这 里 ，x 、y 是 两 个 F 难 的 向 量 。 由 此 可 见 ， 该 模型 用 xy 代替 了 w ， 从 而 大 大 降低 了 参 
数 的 数量 和 存储 空间 。 

再 进一步 ， 我 们 可 以 将 前 面 的 LEM 和 上 面 的 模型 相 加 ， 从 而 得 到 如 下 模型 : 






























































1 
b=M+Db, 十 及 十 有 0 一 一 一 2 > J 
[NODE 


Koren 又 提出 ,为 了 不 增加 太 多 参数 造成 过 拟 合 , 人 x=9g， 从 而 得 到 最 终 的 SVD++ 模 型 : 


p> 一 00 二 记 十 户 十 OF 
b=M+b, +b+q (p,+ eT ' 7) 
通过 将 损失 函数 对 各 个 参数 求 偏 导数 ,我 们 也 可 以 轻松 推导 出 迭代 公式 。 这 里 , 我 们 给 出 了 
SVD++ 模 型 训练 的 实现 代码 ， 如 下 所 示 。 


def LearningBiasLFM(train ui, F, n, alpha, lambda, mu): 
[bu;, bi, B, gq; Y] = INitLFM(train, F) 
2 det} 
for step in range(0, n): 
for u,items in train ui.items() : 
z[u] = pl[u] 
ru = 1 / math.sqrt(1.0 * len(items)) 
for i,rui in items items(): 
for f in range(0,F): 
Zz[u] [If] += y[i][f] * ru 
ei a 0. fer 1 1n. Pange (0 :nr)] 
for i,rui in items items(): 
pui = Predict() 
SE 1 i 
[ul += alpha * (eui - lambda * pulul]) 
bi[i] += alpha * (eui - lambda * pbi[i]) 
rf in range(0,F): 
sum[k] += gq[i][k] * eui * ru 
p[u]j[k] += alpha * (gq[i][k] * eui \ 
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- lambda * pl[u][k]) 

q[i][k] += alpha * ((z[u][k] + p[u][k]) * eui \ 
- lambda * ql[i][k]) 

for i,rui in items items(): 
for f in range(0,F): 
y[i][f] += alpha * (sum[f] - lambda * y[i][f]) 
alpha *= 0.9 
return Tist (bu;, bi, Dp; gq) 


8.2.4 ”加 入 时 间 信 息 


无 论 是 MovieLens 数 据 集 还 是 Netflix Prize 数 据 集 都 包含 时 间 信 息 , 对 于 用 户 每 次 的 评分 行为 ， 
都 给 出 了 行为 发 生 的 时 间 。 因 此 , 在 Netflix Prize 比 赛 期 间 , 很 多 研究 人 员 提 出 了 利用 时 间 信 息 降 
低 预 测 误差 的 方法 。 

利用 时 间 信 息 的 方法 也 主要 分 成 两 种 , 一 种 是 将 时 间 信 息 应 用 到 基于 邻 域 的 模型 中 , 另 一 种 
是 将 时 间 信 息 应 用 到 和 矩阵 分 解 模 型 中 。 下 面 将 分 别 介 绍 这 两 种 算法 。 

1. 基于 邻 域 的 模型 融合 时 间 信 息 

因为 Netflix Prize 数 据 集 中 用 户 数目 太 大 , 所 以 基于 用 户 的 邻 域 模型 很 少 被 使 用 , 主要 是 因为 
存储 用 户 相似 度 抢 阵 非常 困难 。 因 此 ， 本 节 主 要 讨论 如 何 将 时 间 信 息 融 合 到 基于 物品 的 邻 域 模 
型 中 。 

Netflix Prize 的 参赛 队伍 BigChaos 在 技术 报告 中 提 到 了 一 种 融入 时 间 信 息 的 基于 邻 域 的 模 
型 ， 本 市 将 这 个 模型 称 为 TTemCF。 该 算法 通过 如 下 公式 预测 用 户 在 某 一 个 时 刻 会 给 物品 什么 
评分 : 



































Det ty Cys A 
Vi = 
Di CA) 
这 里 ，At = 一 t 是 用 户 u 对 物品 i 和 和 物品 j 评 分 的 时 间 差 ，w 是 物品 i 利 的 相似 度 ，J0ow AD 
是 一 个 考虑 了 时 间 误 减 后 的 相似 度 函 数 , 它 的 主要 目的 是 提高 用 户 最 近 的 评分 行为 对 推荐 结果 的 


影响 ，BigChaos 在 模型 中 采用 了 如 下 的 了 : 


























fw,,At) = 0(6.w, oo = + 


1 
qs 1+exp(—x) 
这 里 ，o(x) 是 sigmoigd 函 数 ， 它 的 目的 是 将 相似 度 压缩 到 (0，1 ) 区 间 中 。 从 上 面 的 定义 
可 以 发 现 ， 随 着 At 增 加，/(w;,A) 会 越 来 越 小 ， 也 就 是 说 用 户 很 久之 前 的 行为 对 预测 用 户 当 前 
评分 的 影响 越 来 越 小 。 
2. 基于 和 矩阵 分 解 的 模型 融合 时 间 信 息 
在 引入 时 间 信 息 后 ， 用 户 评分 矩阵 不 再 是 一 个 二 维和 矩阵 ， 而 是 变 成 了 一 个 三 维和 矩阵 。 不 过 ， 
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我 们 可 以 仿照 分 解 二 维 矩 阵 的 方式 对 三 维 矩 阵 进行 分 解 。 回顾 一 下 前 面 的 BiasSVD 模 型 : 
六 =U+Db, +b,+p, :gq, 
这 里 , W 可 以 看 做 对 二 维 矩 阵 的 零 维 分 解 ,  、 忆 可 以 看 做 对 二 维和 矩阵 的 一 维 分 解 , 而 pg， 
可 以 看 做 对 二 维和 矩阵 的 二 维 分 解 ,仿照 这 种 分 解 ,我 们 可 以 将 用 户 - 物 品 - 时 间 三 维和 矩阵 如 下 分 解 : 
六 =U+Db, +b, +b, +p :gtx :yy, +s 2, to grh le 


这 里 b 建 模 了 系统 整体 平均 分 随时 间 变 化 的 效应 ，x7 .y, 建 模 了 用 户 平均 分 随时 间 变 化 的 
效应 ，s7z 建 模 了 物品 平均 分 随时 间 变 化 的 效应 ， 而 开 , g, jh jj 建 模 了 用 户 兴趣 随时 间 影响 
的 效应 。 这 个 模型 也 可 以 很 容易 地 利用 前 面 提出 的 随机 梯度 下 降 法 进行 训练 。 本 章 将 这 个 模型 记 
为 TSVD。 

Koren 在 SVD++ 模 型 的 基础 上 也 引入 了 时 间 效 应 ?， 回 顾 一 下 SVD++ 模 型 ; 

1 
= UL+D +b,+gqg; CD + 一 一 一 
人 iA 
我 们 可 以 对 这 个 模型 做 如 下 改进 以 融合 时 间 信 息 
b,(D+b, 
bi, = M+D,(D) +b,(t) + gq *(p, (D+ i > DJ) 


| ,ENdo 
b, (0) = b, 本 Ci “dev ,人 (人 本 b, b, ,period(1) 


dev, (1) =sign(t -1,)-|t-t, | 

b(t) = b; + Db, +b oriogd) 
Py (t) = py + Puy 

这 里 ，4 是 用 户 所 有 评分 的 平均 时 间 。period(?) 考虑 了 季节 效应 ， 可 以 定义 为 时 刻 ! 所 在 的 


月 份 。 该 模型 同样 可 以 通过 随机 梯度 下 降 法 进行 优化 。 
8.2.5 “模型 融合 
Netflix Prize 的 最 终 获 胜 队伍 通过 融合 上 百 个 模型 的 结果 才 取 得 了 最 终 的 成 功 。 由 此 可 见 模型 


融合 对 提高 评分 预测 的 精度 至 关 重 要 。 本 节 讨 论 模型 融合 的 两 种 不 同 技术 。 

1. 模型 级 联 融合 

假设 已 经 有 一 个 预测 器 9 ,对 于 每 个 用 户 -物品 对 (w, i) 都 给 出 预测 值 , 那么 可 以 在 这 个 预测 
器 的 基础 上 设计 下 一 个 预测 器 总 沁 来 最 小 化 损失 函数 : 


Ge > (= AD -SD) 
































wi Tui ui 
(ui)e Train 


由 上 面 的 描述 可 以 发 现 ， 级 联 融 合 很 像 Adaboost 算 法 。 和 Adaboost 算 法 类 似 ， 该 方法 每 次 产 





人 参见 Liang Xiang 和 Qing Yang 的 “Time-Dependent Models in Collaborative Filtering Based Recommender System ”， 
WI-IAT 09。 
人 @) 参见 Yehuda Koren 的 “Collaborative Filtering with temporal dynamics”( ACM 2009 Article，2009 )。 
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生 一 个 新 模型 ， 按 照 一 定 的 参数 加 到 旧 模 型 上 去 ， 从 而 使 训练 集 误差 最 小 化 。 不 同 的 是 ,这 里 每 





次 生成 新 模型 时 并 不 对 样本 集 采 样 , 针对 那些 预测 错 的 样本 , 而 是 每 次 都 还 是 利 月 








预测 ， 但 每 次 使 用 的 模型 都 有 区 别 。 


日 全 样本 集 进行 


一 般 来 说 ， 级 联 融 合 的 方法 都 用 于 简单 的 预测 器 ， 比 如 前 面 提 到 的 平均 值 预测 器 。 下 面 的 


Python 代码 实现 了 利用 平均 值 预测 需 进 行 级 联 融合 的 方法 。 


def Predict (train, test, alpha): 

total = diet() 

COunt S Qiett) 

for record in train: 
gu = GetUserGroup (record.user) 
gi = GetItemGroup (record.item) 
AddToMat (total, gu, gi, record.vote - record.predict) 
AddToMat (count, gu, gi, 1) 

for record in test: 
gu = GetUserGroup (record.user) 
gi = GetUserGroup (record.item) 
average = total[gu]l[gil / (1.0 * count [gul [gi] + alpha) 
record.predict += average 








表 8-3 展 示 了 MovieLens 数 据 集 上 对 平均 值 方法 采用 级 联 融合 后 的 RMSE。 如 果 和 表 8-2 的 结果 





对 比 就 可 以 发 现 ， 采 用 级 联 融 合 后 ， 测 试 集 的 RMSE 从 0.9342 下 降 到 了 0.9202。 由 此 可 见 ， 即 使 





是 利用 简单 的 算法 进行 级 联 融合 ， 也 能 得 到 比较 低 的 评分 预测 误差 。 
表 8-3 ”MovieLens 数 据 集中 对 平均 值 方法 采用 级 联 融合 后 的 效果 








UserGroup ltemGroup Train RMSE Test RMSE 
Cluster Cluster 1.1171 1.1167 
IdCluster Cluster 1.0282 1.0344 
Cluster IdCluster 0.9186 0.9274 
UserActivityCluster Cluster 0.9165 0.9254 
Cluster ItemPopularityCluster 0.9164 0.9253 
UserVoteCluster Cluster 0.9142 0.9222 
Cluser ItemVoteCluster 0.9140 0.9221 
UserVoteCluster ItemVoteCluster 0.9123 0.9205 
UserActivityCluster ItemPopularityCluster 0.9121 0.9202 

2. 模型 加 权 融 合 
假设 我 们 有 K 个 不 同 的 预测 器 fF 中 ,7 中 ，…, 和 人， 本 节 主 要 讨论 如 何 将 它们 融合 起 来 获得 最 


低 的 预测 误差 。 
































最 简单 的 融合 算法 就 是 线性 融合 ， 即 最 终 的 预测 器 六 是 这 K 个 预测 需 的 线性 加 权 


从 > 


k 
= A(K) 
= a 
k=1 


一 般 来 说 ， 评 分 预测 问题 的 解决 需要 在 训练 集 上 训练 K 个 不 同 的 预测 絮 ， 然 后 在 测试 集 上 作 
出 预测 。 但 是 ， 如 果 我 们 继续 在 训练 集 上 融合 K 个 预测 器 ， 得 到 线性 加 权 系 数 ， 就 会 造成 过 拟 合 
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的 问题 。 因 此 ， 在 模型 融合 时 一 般 采 用 如 下 方法 。 
口 假设 数据 集 已 经 被 分 为 了 训练 集 4 和 测试 集 B ,那么 首先 需要 将 训练 集 4 按照 相同 的 分 割 方 
法 分 为 41 和 42， 其 中 42 的 生成 方法 和 8 的 生成 方法 一 致 ， 且 大 小 相似 。 
口 在 41 上 训练 K 个 不 同 的 预测 器 ， 在 42 上 作出 预测 。 因 为 我 们 知道 42 上 的 真实 评分 值 ， 所 
以 可 以 在 42 上 利用 最 小 二 乘法 "计算 出 线性 融合 系数 ww 。 
口 在 4 上 训练 K 个 不 同 的 预测 需 ， 在 83 上 作出 预测 ， 并 且 将 这 及 个 预测 需 在 3 上 的 预测 结果 按 
照 已 经 得 到 的 线性 融合 系数 加 权 融 合 ， 以 得 到 最 终 的 预测 结果 。 

除了 线性 融合 ,， 还 有 很 多 复杂 的 融合 方法 ， 比 如 利用 人 工 神经 网 络 的 融合 算法 。 其 实 ， 模 型 

融合 问题 就 是 一 个 典型 的 回归 问题 ， 因 此 所 有 的 回归 算法 都 可 以 用 于 模型 融合 。 






































8.2.6 ”Netflix Prize 的 相关 实验 结果 


Netflix Prize 比 赛 的 3 年 时 间 里 , 很 多 研究 人 员 在 同一 个 数据 集 上 重复 实验 了 前 面 几 节 提 到 的 
各 种 算法 。 因 此 ,本章 我 们 引用 他 们 的 实验 结果 对 比 各 个 算法 的 性 能 。Netflix Prize 采 用 RMSE 评 
测 预测 准确 度 ， 因 此 本 节 的 评测 指标 也 是 RMSE， 具 体 见 表 8-4。 


表 8-4 Netflix Prize 上 著名 算法 的 RMSE 





方法 参 数 RMSE 
Global Average 1.1296 
Item Average 1.0526 
ItemCF K=25 0.9496 
RSVD F=96 0.9094” 
Bias-RSVD F=96 0.9039” 
SVD++ F=50 0.8952™ 
TimeSVD++ F=50 0.8824” 








@ 可 以 参考 维基 百科 对 最 小 二 乘法 的 介绍 ， 地 址 为 http://zh.wikipedia.org/wiki/%E6%9C%80%E5%B0%8F%E4%BA 
%8C WEA%BI9MIIWE6%BI3%IS, 
@ 参见 Arkadiusz Paterek 的 “Improving regularized singular value decomposition for collaborative filtering” ( ACM 





International Conference on Knowledge Discovery and Data Mining, 2007, 39-42。 

加 同上 。 

人 由 参见 Yehuda Koren 的 “Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model” ( ACM 
SIGKDD international conference on Knowledge discovery and data mining, 2008, 426-434。 

@) 参见 Yehuda Koren 的 “Collaborative Filtering with Temporal Dynamics”( ACM 2009 Article, 2009 )。 
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本 书 着 重 介绍 了 推荐 系统 的 各 种 算法 设计 和 系统 设计 的 方法 , 并 且 利 用 一 些 公 开 的 数据 集 离 
线 评测 了 各 种 算法 。 对 于 无 法 通过 离线 评测 知道 算法 性 能 的 情况 , 本 书 引 用 了 很 多 著名 的 用 户 调 
查实 验 来 比较 不 同 的 算法 。 

首先 需要 申明 , 本 书 的 很 多 离线 实验 都 是 在 一 两 个 数据 集 上 完成 的 , 所 以 本 书 得 到 的 所 有 结 
论 都 不 是 定论 , 可 能 换 一 个 数据 集 就 会 得 到 完全 相反 的 结论 。 这 主要 是 因为 不 同 网 站 中 的 用 户 行 
为 有 很 大 的 差异 , 所 以 推荐 系统 很 难 有 放 之 四 海 而 皆 准 的 结论 。 因 此 本 书 非常 鼓励 读者 在 自己 的 
数据 集 上 重复 本 书 的 实验 ， 再 得 到 适合 自己 具体 情况 的 结论 。 这 也 是 本 书 书 名 中 “实践 ”一 词 希 
望 达 到 的 效果 。 

最 后 ， 我 想 引 用 2009 年 ACM 推 荐 系统 大 会 上 Strand 研 究 人 员 做 的 一 个 报告 “推荐 系统 十 堂 
课 ”, 在 这 个 报告 中 Strand 的 研究 人 员 总 结 了 他 们 设计 推荐 系统 的 经 验 , 提出 了 10 条 在 设计 推荐 系 
统 中 学 习 到 的 经 验 和 教训 。 

(1) 确定 你 真 的 需要 推荐 系统 。 推 荐 系统 只 有 在 用 户 遇 到 信息 过 载 时 才 必 要 。 如 果 你 的 网 站 
物品 不 太 多 ,或 者 用 户 兴 趣 都 比较 单一 , 那么 也 许 并 不 需要 推荐 系统 。 所 以 不 要 纠结 于 推荐 系统 
这 个 词 , 不 要 为 了 做 推荐 系统 而 做 推荐 系统 ,而 是 应 该 从 用 户 的 角度 出 发 , 设计 出 能 够 真正 帮助 
用 户 发 现 内 容 的 系统 , 无 论 这 个 系统 算法 是 否 复杂 , 只 要 能 够 真正 帮助 用 户 ,就 是 一 个 好 的 系统 。 

(2) 确定 商业 目标 和 用 户 满意 度 之 间 的 关系 。 对 用 户 好 的 推荐 系统 不 代表 商业 上 有 用 的 推荐 
系统 ， 因 此 要 首先 确定 用 户 满意 的 推荐 系统 和 商业 上 需求 的 差距 。 一般 来 说 ， 有 些 时 候 用 户 满意 
和 商业 需求 并 不 吻合 。 但 是 一 般 情况 下 ,用 户 满意 度 总 是 符合 企业 的 长 期 利益 ,因此 这 一 条 的 主 
要 观点 是 要 平衡 企业 的 长 期 利益 和 短期 利益 之 间 的 关系 。 

(3) 选择 合适 的 开发 人 员 。 一 般 来 说 ， 如 果 是 一 家 大 公司 ， 应 该 雇用 自己 的 开发 人 员 来 专门 
进行 推荐 系统 的 开发 。 

(4) 忘记 冷 启动 的 问题 。 不 断 地 创新 ， 互 联网 上 有 任何 你 想 要 的 数据 。 只 要 用 户 喜 欢 你 的 产 
品 ， 他 们 就 会 不 断 贡 献 新 的 数据 。 

(5) 平 稀 数 据 和 算法 之 间 的 关系 。 使 用 正确 的 用 户 数 据 对 推荐 系统 至 关 重 要 。 对 用 户 行为 数 
据 的 深刻 理解 是 设计 好 推荐 系统 的 必要 条 件 , 因此 分 析 数 据 是 设计 系统 中 最 重要 的 部 分 。 数 据 分 
析 决 定 了 如 何 设计 模型 ， 而 算法 只 是 决定 了 最 终 如 何 优化 模型 。 

(6) 找到 相关 的 物品 很 容易 ， 但 是 何 时 以 何 种 方式 将 它们 展现 给 用 户 是 很 困难 的 。 不 要 为 了 
推荐 而 推荐 。 
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(7) 不 要 浪费 时 间 计算 相似 兴趣 的 用 户 ， 可 以 直接 利用 社会 网 络 数据 。 
(8) 需要 不 断 地 提升 算法 的 扩展 性 。 

(9) 选择 合适 的 用 户 反馈 方式 。 

(10) 设计 合理 的 评测 系统 ， 时 刻 关 注 推 荐 系统 各 方面 的 性 能 。 
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“工程 师 大 都 喜欢 “In Action ”型 的 书籍 ， 但 这 并 非 “又 一 本 ”工具 型 的 “In Action 
读物 ， 透 过 它 你 将 涉足 现代 互联 网 公司 孜孜 以 求 的 用 户 核心 价值 所 在 一 一 个 性 化 服务 。 也 
许 一 次 全 新 的 旅程 就 从 这 里 开始 。” 





阿 稳 ， 豆 瓣 资深 算法 工程 师 


“作者 结合 了 多 年 的 推荐 系统 理论 研究 和 在 Hulu 的 具体 实践 经 验 ， 汲 取 精 华 并 以 深入 浅 

出 的 方式 展示 给 读者 。 无 论 是 对 于 刚 入 门 的 新 手 还 是 推荐 领域 的 老兵 ， 这 本 书 都 是 不 可 多 
得 的 必 备 参考 ， 在 此 我 诚挚 地 向 大 家 推荐 它 。” 

一 一 郑 华 ， Hulu 资 深 软件 开发 主管 


“2009 年 8 月 ， 我 和 项 亮 一 起 发 起 了 Resys China 一 一 一 个 面向 推荐 系统 领域 的 专业 社 
区 。 在 组 织 Resys China 业 内 分 享 活动 的 过 程 中 ， 我 们 人 迫切 感受 到 ， 出 版 《推荐 系统 实践 》 
这 样 一 本 传授 实战 经 验 的 书籍 ， 对 推动 这 个 领域 的 发 展 是 多 么 必要 。 项 亮 作为 国内 推荐 系 
统领 域 一 位 理论 与 实践 并 重 的 专家 ， 把 最 具 实用 价值 的 推荐 技术 进行 了 系统 整理 ， 深 入 浅 
出 地 呈现 到 读者 面前 。 作 为 一 本 主要 面向 业内 人 员 的 技术 书籍 ， 这 点 尤其 难能可贵 。 个 性 
化 推荐 技术 是 最 具 人 文 关 怀 的 技术 之 一 ， 它 尊重 个 体 ， 相 信 每 个 人 都 是 与 众 不 同 的 ， 在 这 
个 以 “人 ”为 中 心 的 社会 化 时 代 ， 它 的 兴起 与 发 扬 光 大 只 是 时 间 问 题 。 我 与 项 亮相 识 ， 是 
因为 对 推荐 技术 的 热爱 ， 希 望 借助 此 书 ， 可 以 让 更 多 的 人 成 为 朋友 。” 
一 一 谷 文 栋 ， 个 性 化 推荐 社区 Resys China 发 起 人 


“从 大 家 经 常 使 用 的 相关 搜索 、 话 题 推荐 、 电 子 商 务 的 各 种 产品 推荐 ， 到 社交 网 络 上 的 
交友 推荐 等 ， 推 荐 系统 在 今天 互联 网 的 产品 和 应 用 中 被 广泛 采用 。 但 是 ， 至 今 还 没有 一 本 
书 系统 地 从 理论 上 对 此 进行 分 析 和 论述 。《 推 荐 系统 实践 》 恰 恰 弥 补 了 这 个 空白 。” 

一 一 吴军 ， 腾 讯 副 总 裁 ，《 数 学 之 美 》 和 《浪潮 之 匮 》 作 者 
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